一种基于多层次跨模态融合的语音和文本情感识别方法

正文

推荐专利

申请号：CN202510501837

申请日期：2025-04-21

公开号：CN120412654A

公开日期：2025-08-01

类型：发明专利

摘要

一种基于多层次跨模态融合的语音和文本情感识别方法，属于深度学习、情感识别领域，可在模态非对齐的情况下，实现多层次的跨模态融合。本发明包括单模态情感识别，多层次跨模态融合，情感分类。其中多层次跨模态融合包括粗粒度特征学习和非对齐细粒度模态融合。粗粒度特征学习阶段，提出统计量差异损失函数，通过缩小语音话语级特征和文本话语级特征之间的距离，缩小两个模态包含的情感信息之间的差异，在话语级层面实现两个模态的信息交互与融合。非对齐细粒度模态融合将不同粒度的语音帧级特征和文本词级特征作为输入，在不需要对齐的情况下，实现了跨模态交互，学习语音和文本细粒度层面的相关性和互补信息。本发明提高了准确率。

技术关键词

编码特征文本情感识别方法语音特征跨模态多层次多头注意力机制语音情感识别线性变换矩阵数据分布多模态情感识别编码器情感特征标签参数细粒度特征

系统为您推荐了相关专利信息

基于大模型分析的遥感图像地理要素自动识别方法及系统

图像分割地理要素识别遥感影像数据多层次遥感数据处理

一种基于边缘引导和动态剪枝的车辆图像分割方法

车辆图像分割方法状态空间模型拉普拉斯动态剪枝空间模块

基于多尺度原型网络的场景图生成方法

原型多尺度多模态交互生成方法注意力

信息资源多层次数据恢复方法、系统及介质

数据恢复方法多层次副本节点误码率

基于三弹性动态耦合的高速公路交通量预测方法及相关系统

交通量预测方法交通流突发事件数据车牌识别数据动态路网

一种基于多层次跨模态融合的语音和文本情感识别方法

站点导航

APP 下载