摘要
本发明涉及一种基于时空卷积提升视频语义理解的方法,步骤如下:S1:从多种渠道采集训练数据;S2:对训练数据进行初步处理;S3:利用Clap模型和/或人工打标的方式,对训练数据进行音效描述的标注,得到视频‑音效‑音效描述三者相匹配的训练数据;S4:将训练数据以视频‑音效描述配对的方式,送入模型进行训练;S41:在视觉编码器之后增加视觉连接器,S42:在经过视觉连接器之后,将视频模态与音效描述通过视觉适配器进行对齐;S43:通过扩散模型与解码器得到梅尔频谱,继而通过声码器得到输出的音效音频;S5:利用训练好的模型进行音效合成,以视频帧作为输入,输出合成音效。本发明通过对输入视频帧的精细化处理,显著提高合成音效的整体质量。
技术关键词
音效
视觉
语义向量
数据
声码器
适配器
视频帧特征
渠道
解码器
注意力机制
语义特征
音频
游戏
序列
误差
参数
系统为您推荐了相关专利信息
监控子系统
数据处理资源
地面系统
管控方法
信号处理
检测农产品
像素点
颜色
实时图像采集
卷积神经网络模型
挖掘机
雷达点云数据
障碍物
防碰撞控制方法
计算机执行指令