摘要
本发明提供了一种多任务语音情感识别方法、装置和存储介质,涉及语音处理领域,包括:增强语音高频部分;将连续的语音信号分割成多个片段,得到分帧语音;采用加窗函数处理分帧语音,得到加窗语音;提取加窗语音的梅尔频率倒谱系数和梅尔频谱图;基于神经网络模型提取梅尔频谱图和梅尔频率倒谱系数的语音特征;在多粒度层面捕捉情感信息,得到情感信息的特征嵌入;基于信息瓶颈原理,降低多任务特征嵌入中的冗余信息;将说话人信息的特征嵌入和性别信息的特征嵌入通过感知聚合模块进行聚合,并与情感信息的特征嵌入相结合,最终输入到分类器中,以预测所述待识别语音所表达的情感。能够提升语音识别系统的情感识别能力。
技术关键词
语音情感识别方法
多任务
语音特征
梅尔频率倒谱系数
神经网络模型
语音情感识别装置
注意力机制
分类器
长短期记忆网络
语音识别系统
存储程序指令
表达式
瓶颈
可读存储介质
情感特征
时序特征
冗余
系统为您推荐了相关专利信息
力学性能检测方法
杆件
三维数字模型
多孔材料
曲线
机器人路径规划
两阶段
离线
机器智能决策
高性能机器人
老人跌倒预警
老年人
干预方法
卷积神经网络模型
长短期记忆网络
监督学习模型
动态潮流
节点
深度神经网络模型
电力系统潮流