摘要
本发明公开了一种完全端到端的多模态对话情感识别方法及系统。该方法包括步骤:以话语为单位对视频文件进行话语分割,得到多个子视频;分别从每个子视频提取每个子视频的视频模态时序特征、音频模态时序特征和文本模态时序特征;对每个子视频的视频模态时序特征、音频模态时序特征和文本模态时序特征进行跨模态融合;分别将目标子视频的话语与自我历史话语和他人历史话语进行时序建模,最后将两者进行融合,作为最终的时序建模特征输出和后续的线性分类器输入。本发明充分利用了多模态的特征,并考虑了说话人自身的情感变化以及说话人之间的情感迁移,大大提升了情感识别的正确率和鲁棒性。
技术关键词
时序特征
视频
多模态对话
情感识别方法
交互特征
融合特征
注意力机制
文本
音频特征
模态特征
特征提取模块
跨模态
情感识别系统
线性分类器
标识
识别模块
标记
系统为您推荐了相关专利信息
评估系统
数据特征提取
数据采集模块
数据处理模块
周期性
协同感知方法
智能船舶
注意力机制
图像识别模型
物体