一种完全端到端的多模态对话情感识别方法及系统

正文

推荐专利

申请号：CN202410844155

申请日期：2024-06-27

公开号：CN118656701A

公开日期：2024-09-17

类型：发明专利

摘要

本发明公开了一种完全端到端的多模态对话情感识别方法及系统。该方法包括步骤：以话语为单位对视频文件进行话语分割，得到多个子视频；分别从每个子视频提取每个子视频的视频模态时序特征、音频模态时序特征和文本模态时序特征；对每个子视频的视频模态时序特征、音频模态时序特征和文本模态时序特征进行跨模态融合；分别将目标子视频的话语与自我历史话语和他人历史话语进行时序建模，最后将两者进行融合，作为最终的时序建模特征输出和后续的线性分类器输入。本发明充分利用了多模态的特征，并考虑了说话人自身的情感变化以及说话人之间的情感迁移，大大提升了情感识别的正确率和鲁棒性。

技术关键词

时序特征视频多模态对话情感识别方法交互特征融合特征注意力机制文本音频特征模态特征特征提取模块跨模态情感识别系统线性分类器标识识别模块标记

系统为您推荐了相关专利信息

视频监控区域的调节方法和摄像头组件

摄像头组件视频三边测量法遗传算法坐标

一种基于深度学习的智能跑姿矫正方法

人体姿态估计人体关键点矫正方法矩阵视频流

一种基于专家经验的试验鉴定体系评估系统

评估系统数据特征提取数据采集模块数据处理模块周期性

一种视听协同异常行为检测的方法

标签特征融合特征音频特征视听音频编码器

一种基于智能船队航行的目标协同感知方法及系统

协同感知方法智能船舶注意力机制图像识别模型物体

一种完全端到端的多模态对话情感识别方法及系统

站点导航

APP 下载