一种基于时空卷积提升视频语义理解的方法

AITNT
正文
推荐专利
一种基于时空卷积提升视频语义理解的方法
申请号:CN202510098087
申请日期:2025-01-22
公开号:CN120014516A
公开日期:2025-05-16
类型:发明专利
摘要
本发明涉及一种基于时空卷积提升视频语义理解的方法,步骤如下:S1:从多种渠道采集训练数据;S2:对训练数据进行初步处理;S3:利用Clap模型和/或人工打标的方式,对训练数据进行音效描述的标注,得到视频‑音效‑音效描述三者相匹配的训练数据;S4:将训练数据以视频‑音效描述配对的方式,送入模型进行训练;S41:在视觉编码器之后增加视觉连接器,S42:在经过视觉连接器之后,将视频模态与音效描述通过视觉适配器进行对齐;S43:通过扩散模型与解码器得到梅尔频谱,继而通过声码器得到输出的音效音频;S5:利用训练好的模型进行音效合成,以视频帧作为输入,输出合成音效。本发明通过对输入视频帧的精细化处理,显著提高合成音效的整体质量。
技术关键词
音效 视觉 语义向量 数据 声码器 适配器 视频帧特征 渠道 解码器 注意力机制 语义特征 音频 游戏 序列 误差 参数
系统为您推荐了相关专利信息
1
一种航天测控通信地面系统及其管控方法
监控子系统 数据处理资源 地面系统 管控方法 信号处理
2
主厂房锚杆施工布置质量评估方法
锚杆 误差修正模型 现场监测数据 数值 围岩变形
3
一种基于机器视觉的农产品外观质量检测方法及系统
检测农产品 像素点 颜色 实时图像采集 卷积神经网络模型
4
挖掘机防碰撞控制方法、装置及挖掘机
挖掘机 雷达点云数据 障碍物 防碰撞控制方法 计算机执行指令
5
一种应用于电工爬杆语音报警的安全分析方法及系统
集成系统 电工 序列 文本 语音特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号