摘要
本发明公开了一种多模态对话情感识别方法,涉及多模态情感识别和人机交互技术领域,包括:利用人脸识别模型和姿态识别工具分别得到表情时序特征和姿态时序特征;注意力模块对表情和姿态特征进行自适应加权融合,获得融合的视觉模态特征;构建上下文语境信息的新表达并基于提示的情感建模技术得到情感表示并通过文本编码器提取文本模态特征;使用数据向量化模型提取说话者对应语音的模态特征;提出跳跃连接多头注意力跨模态融合方法,对多模态的模态特征进行跨模态对齐与融合,之后通过情感分类器模块进行情感识别。本发明有效解决了传统多模态情感识别中关键情感线索识别不足及融合不充分的问题,提高了情感识别的准确性和鲁棒性。
技术关键词
时序特征
模态特征
交互式对话
情感识别方法
上下文语境信息
注意力
情感分类器
语音特征
人脸识别模型
多模态对话
文本编码器
多模态情感识别
识别工具
人脸姿态
跨模态
建模技术
表达式
人脸图像序列
系统为您推荐了相关专利信息
多模态传感器
多尺度特征
自动化指挥系统
数据
长短记忆网络
语音
通信协议接口
模态特征
麦克风频响曲线
语种识别
大语言模型
语音特征数据
文本
视觉特征
评定量表
生成图画
语义向量
空间布局信息
生成方法
特征向量空间
智能预警方法
时序特征
特征提取单元
特征提取模块
多模态