一种基于时空卷积提升视频语义理解的方法

正文

推荐专利

一种基于时空卷积提升视频语义理解的方法

申请号：CN202510098087

申请日期：2025-01-22

公开号：CN120014516A

公开日期：2025-05-16

类型：发明专利

摘要

本发明涉及一种基于时空卷积提升视频语义理解的方法，步骤如下：S1：从多种渠道采集训练数据；S2：对训练数据进行初步处理；S3：利用Clap模型和/或人工打标的方式，对训练数据进行音效描述的标注，得到视频‑音效‑音效描述三者相匹配的训练数据；S4：将训练数据以视频‑音效描述配对的方式，送入模型进行训练；S41：在视觉编码器之后增加视觉连接器，S42：在经过视觉连接器之后，将视频模态与音效描述通过视觉适配器进行对齐；S43：通过扩散模型与解码器得到梅尔频谱，继而通过声码器得到输出的音效音频；S5：利用训练好的模型进行音效合成，以视频帧作为输入，输出合成音效。本发明通过对输入视频帧的精细化处理，显著提高合成音效的整体质量。

技术关键词

音效视觉语义向量数据声码器适配器视频帧特征渠道解码器注意力机制语义特征音频游戏序列误差参数

系统为您推荐了相关专利信息

一种航天测控通信地面系统及其管控方法

监控子系统数据处理资源地面系统管控方法信号处理

主厂房锚杆施工布置质量评估方法

锚杆误差修正模型现场监测数据数值围岩变形

一种基于机器视觉的农产品外观质量检测方法及系统

检测农产品像素点颜色实时图像采集卷积神经网络模型

挖掘机防碰撞控制方法、装置及挖掘机

挖掘机雷达点云数据障碍物防碰撞控制方法计算机执行指令

一种应用于电工爬杆语音报警的安全分析方法及系统

集成系统电工序列文本语音特征

一种基于时空卷积提升视频语义理解的方法

站点导航

APP 下载