一种基于决策级融合的音视频双模态情绪识别方法

AITNT
正文
推荐专利
一种基于决策级融合的音视频双模态情绪识别方法
申请号:CN202410939678
申请日期:2024-07-15
公开号:CN119028377A
公开日期:2024-11-26
类型:发明专利
摘要
本发明公开了一种基于决策级融合的音视频双模态情绪识别方法,采用CNN‑LSTM模型进行音频单模态的情绪识别,采用YOLO模型进行视频单模态的情绪识别,以音频片段的长度为基准,按照Ls的长度将视频切片,实现音视频双模态情绪识别结果的同步;将音频切片和视频切片的情绪置信度和PAD维度值共同组成了一个步长为Ls的时间序列,将视频模态的7分类与音频模态的5分类情绪对齐;采用枚举权重法对音视频双模态的情绪识别结果进行融合,获得一个情绪置信度的时间序列和音视频双模态融合后的最终情绪。实现了音视频双模态情绪识别的同步,对于相同的时间步长,音视频模态可同步输出置信度结果,获得更好的音视频双模态情绪融合结果。
技术关键词
音视频双模态 情绪识别方法 YOLO模型 LSTM模型 音频 切片 序列 人脸情绪识别 连续型 视频流 对音视频 融合规则 实时视频 决策 基准 图像
系统为您推荐了相关专利信息
1
一种多模态多源异构数据融合方法
动态权重分配 数据 多模态 跨模态 注意力机制
2
一种5G增强通话中的音视频流实时解析和动态解码方法
动态解码方法 RTP数据包 音视频 编码 音频
3
一种基于人工智能的智能音箱语音处理方法及系统
智能音箱 环境感知数据 意图识别 语义 声学特征
4
一种基于预训练和文本模态引导的多模态情感分析方法
情感分析方法 模态特征 文本 多头注意力机制 样本
5
空箱检测方法和装置、存储介质和程序产品
白名单 车箱 样本 图像 训练机器学习模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号