基于图像分析的音频信息生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202411724922

申请日期：2024-11-27

公开号：CN119649790B

公开日期：2025-09-26

类型：发明专利

摘要

本发明涉及人工智能技术领域，尤其涉及一种基于图像分析的音频信息生成方法、装置、设备及介质。该方法通过滑窗从待转换图像中滑动提取出N张截取图像，将N张截取图像输入时序卷积网络模型中，输出伪时序特征，将伪时序特征和图像特征输入编码器中，得到压缩特征，对压缩特征进行再卷积，得到再卷积特征，在预设的音频特征集合中搜索与再卷积特征最相似的音频特征，得到目标音频特征，根据目标音频特征，生成参考音频特征，对参考音频特征进行特征重构，得到生成音频信息，通过滑动方式截取待转换图像，使得截取图像包含更丰富的图像信息，提高特征表征能力，将再卷积特征映射为符合音频习惯的目标音频特征，提高图像与生成音频的关联程度。

技术关键词

音频特征信息生成方法卷积特征压缩特征卷积网络模型时序特征重构信息生成装置图像分析特征提取模块像素点计算机设备编码器可读存储介质人工智能技术解码器处理器

系统为您推荐了相关专利信息

基于长短焦图像融合的城轨列车自主障碍物检测方法及系统

障碍物检测方法城轨列车远距离非暂态计算机可读存储介质视野

一种井下智能风门自适应调节方法及系统

智能风门序列局部波动特征气压卷积神经网络模型

一种基于智能硬件的手机文件备份方法及系统

移动终端设备智能硬件文件备份方法云服务设备设备标识信息

基于混合网络的图像处理方法、装置、设备、介质及产品

混合网络模型卷积特征图像处理方法嵌入特征拼接模块

一种多联动安全管控机制下的智慧工厂安全监管方法

视频段安全监管方法关键帧图像时序

基于图像分析的音频信息生成方法、装置、设备及介质

站点导航

APP 下载