摘要
本发明提出一种面向不完整多模态情感分析的多模态融合方法及系统,将文本、音频和图像原始特征投影至统一潜在空间;在潜在空间中通过最小化Gram矩阵体积使多模态特征几何分布对齐;动态屏蔽部分模态特征,并与其他模态特征一同输入双支路网络;第一支路中通过跨模态注意力机制对齐其他模态特征至屏蔽特征,利用超图结构卷积与多头自注意力,建模模态内部的高阶结构依赖关系,得到第一特征;第二支路中通过软注意力矩阵捕捉模态特征冗余信息并抑制,得到第二特征;基于共享编码器融合第一特征和第二特征得到多模态融合特征。通过扩展模态内特征的分布表达能力,压缩模态间的几何结构偏差,提升在模态缺失条件下的多模态融合鲁棒性和准确率。
技术关键词
模态特征
多模态情感分析
融合方法
径向基核函数
注意力机制
跨模态
编码器
矩阵
冗余
融合特征
文本
音频
归一化模块
融合系统
对齐模块
处理器
支路
图像
系统为您推荐了相关专利信息
多模态监控
自动报警方法
安防消防
多模态特征
烟感
交叉注意力机制
模型构建方法
文本
预训练模型
Sigmoid函数
YOLO模型
地膜
掩膜
遥感影像识别技术
对象检测
时序预测方法
离散余弦变换
时序预测技术
通道注意力机制
随机梯度下降
识别方法
基因表达数据
跨模态
注意力机制
卷积网络模型