一种异构多模态数据的深度语义协同融合方法

正文

推荐专利

申请号：CN202510979233

申请日期：2025-07-16

公开号：CN120851087A

公开日期：2025-10-28

类型：发明专利

摘要

本发明涉及多模态信息处理技术领域，提供了一种异构多模态数据的深度语义协同融合方法。针对现有技术中模态交互机制僵化、语义建模浅层的问题，本发明提供动态适应性融合框架。方法包括：对文本、音频、视频模态数据进行特征编码与对齐，生成统一维度单模态表示；通过增强型多头门控融合模块实现动态交互，生成双路径特征；基于堆叠Transformer编码器进行跨模态深度建模，输出最终融合语义。其中多头注意力路径以文本为查询向量，音频/视频为键值向量计算跨模态映射；门控路径通过余弦相似度与可学习温度参数生成动态权重；双路径自适应融合采用平衡因子α加权组合。该方法提升多模态数据融合精度与系统鲁棒性，适用于政务服务、人机交互等场景。

技术关键词

模态特征双向长短期记忆网络文本语义协同融合特征融合语义跨模态音频特征融合方法多模态数据融合矩阵预训练语言模型多头注意力机制编码视频帧特征前馈神经网络

系统为您推荐了相关专利信息

代价地图生成方法、设备、介质、产品及无人驾驶车辆

地图生成方法静态障碍物栅格动态障碍物三维地面数据

基于粒度感知图像退化估计的多复原任务统一方法

退化特征压缩伪影特征提取器输出特征层级

基于视觉状态空间模型的图像重建方法及装置

编码特征融合特征样本核磁共振成像技术压缩特征

一种基于跨模态注意力Transformer的中医辨证辅助决策方法

辅助决策方法跨模态伤寒文本多层感知机

基于互补性引导解耦的组合图像检索方法及系统

图像检索方法文本跨模态语义特征训练集数据

一种异构多模态数据的深度语义协同融合方法

站点导航

APP 下载