摘要
本发明公开了一种应用于文本模态缺失场景下的多模态情感识别方法,包括:获取待检测者的视频与音频,对获取的视频和音频分别进行预处理,以分别获取多个预处理后的人脸视频关键帧和多个梅尔频率倒谱系数MFCC特征,将预处理后的多个人脸视频关键帧和MFCC特征成对输入至预先训练好的情感识别模型中,以获取待检测者的多个情感类别,并对得到的多个情感类别进行One‑Hot编码,以获取多个向量作为最终的情感识别结果。本发明能够解决现有多模态情感识别方法由于文本模态数据在工业场景下难以获取,直接导致情感识别准确率降低的技术问题。
技术关键词
关键帧
情感识别模型
情感识别方法
注意力
跨模态
MFCC特征
人脸
情感类别
音频特征提取
文本
视频特征提取
场景
融合特征
模块
多任务卷积神经网络
MTCNN算法
系统为您推荐了相关专利信息
大语言模型
软件静态测试技术
微调方法
规则集
生成结构化数据
北京鸭
体积计算方法
腹部CT图像
肝脏
轻量级神经网络
大语言模型
医疗文本数据
微调系统
微调单元
注意力
脉冲神经网络模型
动作识别方法
序列
人体动作识别
离散状态空间