摘要
本发明提供了一种多任务语音情感识别方法、装置和存储介质,涉及语音处理领域,包括:增强语音高频部分;将连续的语音信号分割成多个片段,得到分帧语音;采用加窗函数处理分帧语音,得到加窗语音;提取加窗语音的梅尔频率倒谱系数和梅尔频谱图;基于神经网络模型提取梅尔频谱图和梅尔频率倒谱系数的语音特征;在多粒度层面捕捉情感信息,得到情感信息的特征嵌入;基于信息瓶颈原理,降低多任务特征嵌入中的冗余信息;将说话人信息的特征嵌入和性别信息的特征嵌入通过感知聚合模块进行聚合,并与情感信息的特征嵌入相结合,最终输入到分类器中,以预测所述待识别语音所表达的情感。能够提升语音识别系统的情感识别能力。
技术关键词
语音情感识别方法
多任务
语音特征
梅尔频率倒谱系数
神经网络模型
语音情感识别装置
注意力机制
分类器
长短期记忆网络
语音识别系统
存储程序指令
表达式
瓶颈
可读存储介质
情感特征
时序特征
冗余
系统为您推荐了相关专利信息
换相设备
选址定容规划
指数
机器学习算法
地理信息数据
数据集构建方法
面向航天器
卫星模型
图像自动标注方法
多任务
关键节点识别方法
差异表达基因
构建基因表达
网络拓扑特征
疾病标志物技术
SAR图像序列
数据去噪方法
风险
神经网络模型
标识