一种基于决策级融合的音视频双模态情绪识别方法

正文

推荐专利

申请号：CN202410939678

申请日期：2024-07-15

公开号：CN119028377A

公开日期：2024-11-26

类型：发明专利

摘要

本发明公开了一种基于决策级融合的音视频双模态情绪识别方法，采用CNN‑LSTM模型进行音频单模态的情绪识别，采用YOLO模型进行视频单模态的情绪识别，以音频片段的长度为基准，按照Ls的长度将视频切片，实现音视频双模态情绪识别结果的同步；将音频切片和视频切片的情绪置信度和PAD维度值共同组成了一个步长为Ls的时间序列，将视频模态的7分类与音频模态的5分类情绪对齐；采用枚举权重法对音视频双模态的情绪识别结果进行融合，获得一个情绪置信度的时间序列和音视频双模态融合后的最终情绪。实现了音视频双模态情绪识别的同步，对于相同的时间步长，音视频模态可同步输出置信度结果，获得更好的音视频双模态情绪融合结果。

技术关键词

音视频双模态情绪识别方法 YOLO模型 LSTM模型音频切片序列人脸情绪识别连续型视频流对音视频融合规则实时视频决策基准图像

系统为您推荐了相关专利信息

一种多模态多源异构数据融合方法

动态权重分配数据多模态跨模态注意力机制

一种5G增强通话中的音视频流实时解析和动态解码方法

动态解码方法 RTP数据包音视频编码音频

一种基于人工智能的智能音箱语音处理方法及系统

智能音箱环境感知数据意图识别语义声学特征

一种基于预训练和文本模态引导的多模态情感分析方法

情感分析方法模态特征文本多头注意力机制样本

空箱检测方法和装置、存储介质和程序产品

白名单车箱样本图像训练机器学习模型

一种基于决策级融合的音视频双模态情绪识别方法

站点导航

APP 下载