一种完全端到端的多模态对话情感识别方法及系统

AITNT
正文
推荐专利
一种完全端到端的多模态对话情感识别方法及系统
申请号:CN202410844155
申请日期:2024-06-27
公开号:CN118656701A
公开日期:2024-09-17
类型:发明专利
摘要
本发明公开了一种完全端到端的多模态对话情感识别方法及系统。该方法包括步骤:以话语为单位对视频文件进行话语分割,得到多个子视频;分别从每个子视频提取每个子视频的视频模态时序特征、音频模态时序特征和文本模态时序特征;对每个子视频的视频模态时序特征、音频模态时序特征和文本模态时序特征进行跨模态融合;分别将目标子视频的话语与自我历史话语和他人历史话语进行时序建模,最后将两者进行融合,作为最终的时序建模特征输出和后续的线性分类器输入。本发明充分利用了多模态的特征,并考虑了说话人自身的情感变化以及说话人之间的情感迁移,大大提升了情感识别的正确率和鲁棒性。
技术关键词
时序特征 视频 多模态对话 情感识别方法 交互特征 融合特征 注意力机制 文本 音频特征 模态特征 特征提取模块 跨模态 情感识别系统 线性分类器 标识 识别模块 标记
系统为您推荐了相关专利信息
1
视频监控区域的调节方法和摄像头组件
摄像头组件 视频 三边测量法 遗传算法 坐标
2
一种基于深度学习的智能跑姿矫正方法
人体姿态估计 人体关键点 矫正方法 矩阵 视频流
3
一种基于专家经验的试验鉴定体系评估系统
评估系统 数据特征提取 数据采集模块 数据处理模块 周期性
4
一种视听协同异常行为检测的方法
标签特征 融合特征 音频特征 视听 音频编码器
5
一种基于智能船队航行的目标协同感知方法及系统
协同感知方法 智能船舶 注意力机制 图像识别模型 物体
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号