摘要
本发明涉及人工智能技术领域,尤其涉及一种基于图像分析的音频信息生成方法、装置、设备及介质。该方法通过滑窗从待转换图像中滑动提取出N张截取图像,将N张截取图像输入时序卷积网络模型中,输出伪时序特征,将伪时序特征和图像特征输入编码器中,得到压缩特征,对压缩特征进行再卷积,得到再卷积特征,在预设的音频特征集合中搜索与再卷积特征最相似的音频特征,得到目标音频特征,根据目标音频特征,生成参考音频特征,对参考音频特征进行特征重构,得到生成音频信息,通过滑动方式截取待转换图像,使得截取图像包含更丰富的图像信息,提高特征表征能力,将再卷积特征映射为符合音频习惯的目标音频特征,提高图像与生成音频的关联程度。
技术关键词
音频特征
信息生成方法
卷积特征
压缩特征
卷积网络模型
时序特征
重构
信息生成装置
图像分析
特征提取模块
像素点
计算机设备
编码器
可读存储介质
人工智能技术
解码器
处理器
系统为您推荐了相关专利信息
障碍物检测方法
城轨列车
远距离
非暂态计算机可读存储介质
视野
智能风门
序列
局部波动特征
气压
卷积神经网络模型
移动终端设备
智能硬件
文件备份方法
云服务设备
设备标识信息
混合网络模型
卷积特征
图像处理方法
嵌入特征
拼接模块