一种基于多模态关联学习的音视频联合表征方法

正文

推荐专利

申请号：CN202510643739

申请日期：2025-05-19

公开号：CN120375259A

公开日期：2025-07-25

类型：发明专利

摘要

本发明涉及音视频融合技术领域，具体涉及一种基于多模态关联学习的音视频联合表征方法。方法包括：获取视频数据；对视频数据进行分离和切割，生成视频模态段和音频模态段；采用预训练的CNN网络，分别提取视频模态段的深度特征和音频模态段的深度特征；将深度特征输入两阶段的模态增强‑交互模块，在全局信息下增强模态的独有特征，并进行模态间的关联学习；基于关联学习的结果，采用动态融合模块，选择高相关性的音频与视频特征进行融合，获得融合结果。本发明能够挖掘视频、音频模态内的独有特征和模态间的潜在关系，实现动态高效的模态联合表征，从而为下游任务提供较好的数据支撑，准确性较高。

技术关键词

上下文特征表征方法音视频多模态两阶段音频特征注意力动态模态特征模块数据网络矩阵关系

系统为您推荐了相关专利信息

基于病种的标准化用耗路径管理方法及系统

路径管理方法生成结构化数据术后并发症基线序列

基于边缘计算与联邦学习的多模态数据实时识别与协同处理系统

节点多模态数据采集分片地理位置编码学习控制器

多模态大模型的具身智能化方法

三维地图场景智能化方法机械臂控制算法大语言模型导航算法

用于应急仓库的物资检查方法及系统

多模态传感器检查方法仓库红外热成像仪多模态数据采集

一种基于深度学习的多模态图像配准模型及方法

图像配准模型特征提取模块图像配准方法解码器结构编码器

一种基于多模态关联学习的音视频联合表征方法

站点导航

APP 下载