一种基于音素感知的语音情感识别方法及装置

正文

推荐专利

申请号：CN202411505238

申请日期：2024-10-28

公开号：CN119028381B

公开日期：2025-01-21

类型：发明专利

摘要

本发明公开了一种基于音素感知的语音情感识别方法及装置，所述方法包括：获取原始语音，对所述原始语音预处理得到音频序列和音素序列；通过所述初始模型的全连接层和softmax函数，得到音素标签的预测概率，通过第一交叉熵损失函数计算音素预测损失；将所述编码特征和所述解码特征通过挤压激励模块融合，得到增强特征；将增强特征在时间维度进行池化，并在特征维度上进行拼接，形成聚合特征。本发明提供的语音情感识别方法，减少了预训练表示中的身份信息，从而为语音情感识别任务提供更强大和更具区分性的特征。为了进一步利用预训练表示，引入了一个挤压激励模块，以建模特征通道之间的依赖关系并突出情感相关信息，提升了语音情感识别任务的性能。

技术关键词

语音情感识别方法语音情感识别模型编码特征关键绩效指标序列语音情感识别装置音频非暂态计算机可读存储介质情感类别 Softmax函数解码器解码架构编码器识别模块处理器标签

一种基于音素感知的语音情感识别方法及装置

站点导航

APP 下载