摘要
本发明涉及多模态信息处理技术领域,提供了一种异构多模态数据的深度语义协同融合方法。针对现有技术中模态交互机制僵化、语义建模浅层的问题,本发明提供动态适应性融合框架。方法包括:对文本、音频、视频模态数据进行特征编码与对齐,生成统一维度单模态表示;通过增强型多头门控融合模块实现动态交互,生成双路径特征;基于堆叠Transformer编码器进行跨模态深度建模,输出最终融合语义。其中多头注意力路径以文本为查询向量,音频/视频为键值向量计算跨模态映射;门控路径通过余弦相似度与可学习温度参数生成动态权重;双路径自适应融合采用平衡因子α加权组合。该方法提升多模态数据融合精度与系统鲁棒性,适用于政务服务、人机交互等场景。
技术关键词
模态特征
双向长短期记忆网络
文本
语义协同
融合特征
融合语义
跨模态
音频特征
融合方法
多模态数据融合
矩阵
预训练语言模型
多头注意力机制
编码
视频帧特征
前馈神经网络
系统为您推荐了相关专利信息
地图生成方法
静态障碍物
栅格
动态障碍物
三维地面数据
编码特征
融合特征
样本
核磁共振成像技术
压缩特征