摘要
本申请实施例提供了一种多模态情绪识别方法、装置、电子设备、存储介质及产品,涉及情绪识别技术领域。该方法包括:获取待识别音视频,待识别音视频包括音频流和视频流,对音频流进行分段,得到至少一个音频段,将各音频段输入音频识别模型,得到音频识别结果,根据音频识别结果为情绪结果的目标音频段,在视频流中确定对应的视频段,将视频段输入视频识别模型,得到视频识别结果,基于音频识别结果和视频识别结果,确定待识别音视频的目标情绪结果。本申请实施例使用视频情绪识别辅助音频情绪识别完成对于音视频的情绪识别,避免单一音频识别可能出现的错误,能够提高识别准确性。
技术关键词
视频识别
音频
情绪识别方法
视频段
音视频
多模态情绪
视频特征向量
图像特征向量
图像识别模型
特征工程
视频流
梅尔频率倒谱系数
情绪识别技术
线性预测系数
数据
识别模块
电子设备
分段
系统为您推荐了相关专利信息
景点导览系统
导航模块
自定义地图
智能路线规划
导游
风电设备叶片
故障检测方法
注意力机制
辅助编码器
故障检测模型
家庭自动化装置
音频输出装置
意图
AI系统
膝上型计算机
情绪识别方法
情绪识别模型
多模态辅助
自然语言
韵律特征