摘要
本发明公开了一种基于多模态的审讯对象情绪变化的识别方法,包括:获取审讯对象审讯的原始音频和原始视频;对原始音频和原始视频分别分割为多个等时长的音频片段和视频片段,并将音频片段和与其时刻对齐的视频片段作为一个片段组,得到多个时刻对齐的片段组;对每个片段组中的音频片段和视频片段分别进行特征提取,得到各片段组的语音特征向量和视频特征向量;采用基于注意力机制的多模态融合方法对同一个片段组的语音特征向量和视频特征向量进行融合,得到每个片段组的融合特征向量;对每个片段组的融合特征向量进行情绪识别,并对相邻两个片段组的情绪识别结果进行对比,得到审讯对象的情绪变化识别结果。
技术关键词
视频特征向量
识别方法
视频特征提取
多模态
交叉注意力机制
融合方法
对象
人脸图像特征
音频特征提取
融合策略
语音特征
冗余
噪声
矩阵