基于图像分析的音频信息生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于图像分析的音频信息生成方法、装置、设备及介质
申请号:CN202411724922
申请日期:2024-11-27
公开号:CN119649790B
公开日期:2025-09-26
类型:发明专利
摘要
本发明涉及人工智能技术领域,尤其涉及一种基于图像分析的音频信息生成方法、装置、设备及介质。该方法通过滑窗从待转换图像中滑动提取出N张截取图像,将N张截取图像输入时序卷积网络模型中,输出伪时序特征,将伪时序特征和图像特征输入编码器中,得到压缩特征,对压缩特征进行再卷积,得到再卷积特征,在预设的音频特征集合中搜索与再卷积特征最相似的音频特征,得到目标音频特征,根据目标音频特征,生成参考音频特征,对参考音频特征进行特征重构,得到生成音频信息,通过滑动方式截取待转换图像,使得截取图像包含更丰富的图像信息,提高特征表征能力,将再卷积特征映射为符合音频习惯的目标音频特征,提高图像与生成音频的关联程度。
技术关键词
音频特征 信息生成方法 卷积特征 压缩特征 卷积网络模型 时序特征 重构 信息生成装置 图像分析 特征提取模块 像素点 计算机设备 编码器 可读存储介质 人工智能技术 解码器 处理器
系统为您推荐了相关专利信息
1
基于长短焦图像融合的城轨列车自主障碍物检测方法及系统
障碍物检测方法 城轨列车 远距离 非暂态计算机可读存储介质 视野
2
一种井下智能风门自适应调节方法及系统
智能风门 序列 局部波动特征 气压 卷积神经网络模型
3
一种基于智能硬件的手机文件备份方法及系统
移动终端设备 智能硬件 文件备份方法 云服务设备 设备标识信息
4
基于混合网络的图像处理方法、装置、设备、介质及产品
混合网络模型 卷积特征 图像处理方法 嵌入特征 拼接模块
5
一种多联动安全管控机制下的智慧工厂安全监管方法
视频段 安全监管方法 关键帧 图像 时序
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号