摘要
本发明公开了一种基于决策级融合的音视频双模态情绪识别方法,采用CNN‑LSTM模型进行音频单模态的情绪识别,采用YOLO模型进行视频单模态的情绪识别,以音频片段的长度为基准,按照Ls的长度将视频切片,实现音视频双模态情绪识别结果的同步;将音频切片和视频切片的情绪置信度和PAD维度值共同组成了一个步长为Ls的时间序列,将视频模态的7分类与音频模态的5分类情绪对齐;采用枚举权重法对音视频双模态的情绪识别结果进行融合,获得一个情绪置信度的时间序列和音视频双模态融合后的最终情绪。实现了音视频双模态情绪识别的同步,对于相同的时间步长,音视频模态可同步输出置信度结果,获得更好的音视频双模态情绪融合结果。
技术关键词
音视频双模态
情绪识别方法
YOLO模型
LSTM模型
音频
切片
序列
人脸情绪识别
连续型
视频流
对音视频
融合规则
实时视频
决策
基准
图像
系统为您推荐了相关专利信息
情感分析方法
模态特征
文本
多头注意力机制
样本