摘要
本发明公开了一种基于多模态融合的情感识别方法、系统、设备及介质,获取两个或两个以上模态的数据,对数据进行预处理和特征提取,再将数据划分为训练集和测试集;利用训练集对预先建立的多通道特征增强融合情感分析网络模型进行训练,将测试集输入训练好的多通道特征增强融合情感分析网络模型中,得到最终的情感预测结果。本发明整体提升了语音、文本、图像混合数据下的情感识别性能;同时,在克服模型泛化能力弱、模型规模大、模态不平衡问题方面进行了探索并提供了解决方案;能够为后续相关领域的技术研究和技术应用提供参考。
技术关键词
情感识别方法
多通道特征
多模态
文本
编码器
特征提取器
联合多特征
情感识别系统
数据预处理方法
音频
MFCC特征
注意力机制
面部特征信息
情感关键词
网络
损失函数优化
BERT模型
转换器模块
跨模态