摘要
本发明公开了一种基于共同注意力的多源信息情绪识别方法,包括:步骤1,对视频数据进行预处理,分离音频流和视频流,得到视频帧序列xv及音频数据xa;步骤2,从音频数据xa中手动提取MFCC声学特征xm,作为输入的一部分;步骤3,基于视频帧序列xv、音频数据xa和MFCC声学特征xm的输入,分别对其进行建模和编码,得到各自更深层级的特征表示;步骤4,通过全连接层和Softmax函数对步骤三处理后的数据进行分类,得到情绪识别分类结果。本发明在语音中提取声学特征和语义特征,在视频中也关注到全局的特征,声学和视觉特征生成注意力权重作用于语义特征,利用不同信息源之间的协同关系,使得情绪识别效果更好。
技术关键词
情绪识别方法
声学特征
双向长短期记忆网络
视频帧特征
音频
语义特征
MFCC特征
情绪识别模型
序列
数据
注意力机制
视频流
编码模块
输出特征
LSTM模型
矩阵