摘要
一种基于多层次跨模态融合的语音和文本情感识别方法,属于深度学习、情感识别领域,可在模态非对齐的情况下,实现多层次的跨模态融合。本发明包括单模态情感识别,多层次跨模态融合,情感分类。其中多层次跨模态融合包括粗粒度特征学习和非对齐细粒度模态融合。粗粒度特征学习阶段,提出统计量差异损失函数,通过缩小语音话语级特征和文本话语级特征之间的距离,缩小两个模态包含的情感信息之间的差异,在话语级层面实现两个模态的信息交互与融合。非对齐细粒度模态融合将不同粒度的语音帧级特征和文本词级特征作为输入,在不需要对齐的情况下,实现了跨模态交互,学习语音和文本细粒度层面的相关性和互补信息。本发明提高了准确率。
技术关键词
编码特征
文本情感识别方法
语音特征
跨模态
多层次
多头注意力机制
语音情感识别
线性变换矩阵
数据分布
多模态情感识别
编码器
情感特征
标签
参数
细粒度特征
系统为您推荐了相关专利信息
图像分割
地理要素识别
遥感影像数据
多层次
遥感数据处理
车辆图像分割方法
状态空间模型
拉普拉斯
动态剪枝
空间模块
交通量预测方法
交通流
突发事件数据
车牌识别数据
动态路网