摘要
本发明公开了一种面向模态缺失和分布外数据的多模态情绪识别方法和装置,首先获取用户文本、音频和视觉数据,通过特征提取模块提取各模态特征,然后提取已词级对齐的各模态特征对应的时序特征,对各模态的时序特征在时间维度上进行拼接,输入多模态复合模块,得到复合特征,然后对将复合特征进行处理得到多模态联合表征,最后将多模态联合表征输入到分类模块,得到识别结果。本申请技术方案使用模型特定的自蒸馏应对模态缺失挑战,使用模型无关的因果推断应对分布外数据挑战,不仅能够克服模态缺失和分布外数据的问题,并且还能够提高情绪识别的准确率。
技术关键词
情绪识别方法
注意力
模态特征
多模态情绪
复合模块
特征提取模块
更新模型参数
时序特征
数据
复合层
多层感知机
样本
情绪识别装置
编码特征
重构
文本
掩码矩阵