一种基于Transformer的跨模态融合多模态情感识别方法

正文

推荐专利

申请号：CN202510524885

申请日期：2025-04-24

公开号：CN120508972A

公开日期：2025-08-19

类型：发明专利

摘要

本发明公开了一种基于Transformer的跨模态融合的多模态情感识别方法与装置，用于解决多模态情感识别任务中模态异构性、时间对齐困难和动态情感建模不足问题，本方法以情感识别的准确性和鲁棒性作为性能评价指标。首先，获取视觉、语音和文本三种模态的特征信息，并通过深度学习模型分别对每种模态进行特征提取，然后利用跨模态Transformer模块对不同模态的特征进行融合，通过多头自注意力机制动态建模模态间的复杂依赖关系，以实现更加准确的情感识别，最后基于时序建模和情感分类模块对融合后的特征进行情感预测。本发明能够有效解决多模态情感识别中的模态异构性、时间对齐困难和动态情感建模不足问题。

技术关键词

模态特征多模态情感识别情感特征文本注意力机制时序依赖关系语音深度学习模型跨模态情感识别方法 Attention机制全局平均池化编码器视觉输出特征模块卷积长短期记忆梅尔频率倒谱系数

一种基于Transformer的跨模态融合多模态情感识别方法

站点导航

APP 下载