摘要
本发明公开了一种基于音素感知的语音情感识别方法及装置,所述方法包括:获取原始语音,对所述原始语音预处理得到音频序列和音素序列;通过所述初始模型的全连接层和softmax函数,得到音素标签的预测概率,通过第一交叉熵损失函数计算音素预测损失;将所述编码特征和所述解码特征通过挤压激励模块融合,得到增强特征;将增强特征在时间维度进行池化,并在特征维度上进行拼接,形成聚合特征。本发明提供的语音情感识别方法,减少了预训练表示中的身份信息,从而为语音情感识别任务提供更强大和更具区分性的特征。为了进一步利用预训练表示,引入了一个挤压激励模块,以建模特征通道之间的依赖关系并突出情感相关信息,提升了语音情感识别任务的性能。
技术关键词
语音情感识别方法
语音情感识别模型
编码特征
关键绩效指标
序列
语音情感识别装置
音频
非暂态计算机可读存储介质
情感类别
Softmax函数
解码器
解码架构
编码器
识别模块
处理器
标签