摘要
本发明涉及音视频融合技术领域,具体涉及一种基于多模态关联学习的音视频联合表征方法。方法包括:获取视频数据;对视频数据进行分离和切割,生成视频模态段和音频模态段;采用预训练的CNN网络,分别提取视频模态段的深度特征和音频模态段的深度特征;将深度特征输入两阶段的模态增强‑交互模块,在全局信息下增强模态的独有特征,并进行模态间的关联学习;基于关联学习的结果,采用动态融合模块,选择高相关性的音频与视频特征进行融合,获得融合结果。本发明能够挖掘视频、音频模态内的独有特征和模态间的潜在关系,实现动态高效的模态联合表征,从而为下游任务提供较好的数据支撑,准确性较高。
技术关键词
上下文特征
表征方法
音视频
多模态
两阶段
音频特征
注意力
动态
模态特征
模块
数据
网络
矩阵
关系
系统为您推荐了相关专利信息
路径管理方法
生成结构化数据
术后并发症
基线
序列
节点
多模态数据采集
分片
地理位置编码
学习控制器
三维地图场景
智能化方法
机械臂控制算法
大语言模型
导航算法
多模态传感器
检查方法
仓库
红外热成像仪
多模态数据采集
图像配准模型
特征提取模块
图像配准方法
解码器结构
编码器