摘要
本发明公开了一种基于Transformer的跨模态融合的多模态情感识别方法与装置,用于解决多模态情感识别任务中模态异构性、时间对齐困难和动态情感建模不足问题,本方法以情感识别的准确性和鲁棒性作为性能评价指标。首先,获取视觉、语音和文本三种模态的特征信息,并通过深度学习模型分别对每种模态进行特征提取,然后利用跨模态Transformer模块对不同模态的特征进行融合,通过多头自注意力机制动态建模模态间的复杂依赖关系,以实现更加准确的情感识别,最后基于时序建模和情感分类模块对融合后的特征进行情感预测。本发明能够有效解决多模态情感识别中的模态异构性、时间对齐困难和动态情感建模不足问题。
技术关键词
模态特征
多模态情感识别
情感特征
文本
注意力机制
时序依赖关系
语音
深度学习模型
跨模态
情感识别方法
Attention机制
全局平均池化
编码器
视觉
输出特征
模块
卷积长短期记忆
梅尔频率倒谱系数