一种基于多模态关联学习的音视频联合表征方法

AITNT
正文
推荐专利
一种基于多模态关联学习的音视频联合表征方法
申请号:CN202510643739
申请日期:2025-05-19
公开号:CN120375259A
公开日期:2025-07-25
类型:发明专利
摘要
本发明涉及音视频融合技术领域,具体涉及一种基于多模态关联学习的音视频联合表征方法。方法包括:获取视频数据;对视频数据进行分离和切割,生成视频模态段和音频模态段;采用预训练的CNN网络,分别提取视频模态段的深度特征和音频模态段的深度特征;将深度特征输入两阶段的模态增强‑交互模块,在全局信息下增强模态的独有特征,并进行模态间的关联学习;基于关联学习的结果,采用动态融合模块,选择高相关性的音频与视频特征进行融合,获得融合结果。本发明能够挖掘视频、音频模态内的独有特征和模态间的潜在关系,实现动态高效的模态联合表征,从而为下游任务提供较好的数据支撑,准确性较高。
技术关键词
上下文特征 表征方法 音视频 多模态 两阶段 音频特征 注意力 动态 模态特征 模块 数据 网络 矩阵 关系
系统为您推荐了相关专利信息
1
基于病种的标准化用耗路径管理方法及系统
路径管理方法 生成结构化数据 术后并发症 基线 序列
2
基于边缘计算与联邦学习的多模态数据实时识别与协同处理系统
节点 多模态数据采集 分片 地理位置编码 学习控制器
3
多模态大模型的具身智能化方法
三维地图场景 智能化方法 机械臂控制算法 大语言模型 导航算法
4
用于应急仓库的物资检查方法及系统
多模态传感器 检查方法 仓库 红外热成像仪 多模态数据采集
5
一种基于深度学习的多模态图像配准模型及方法
图像配准模型 特征提取模块 图像配准方法 解码器结构 编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号