摘要
本发明公开基于跨时空融合注意力网络的语音情绪识别模型及方法,属于语音处理与人工智能技术领域;基于跨时空融合注意力网络的语音情绪识别模型包括:频域特征提取模块、时域特征提取模块、特征融合模块和情绪分类模块;语音信号通过短时傅里叶变换和梅尔滤波组提取生成语谱图和梅尔频谱图,并作为频域特征提取模块的输入,来提取出频域特征;语音信号的eGeMAPS特征经帧级提取,形成时序特征矩阵,并输入时域特征提取模块,提取出时域特征;特征融合模块将频域特征和时域特征融合为统一高维特征;最后输入情绪分类模块,输出情绪类别。从而有效提升对多种复杂语音情绪的识别精度,具有良好的应用前景和推广价值。
技术关键词
语音情绪识别方法
时域特征提取
频域特征提取
时序特征
短时傅里叶变换
二维卷积神经网络
模块
拼接结构
时序依赖关系
多头注意力机制
对话机器人
通信接口
计算机存储介质
系统为您推荐了相关专利信息
电力设备故障诊断
图谱
校验规则库
DTW算法
时序特征
计算机组件
时序特征
故障诊断方法
离散特征
长短期记忆神经网络
风险预测模型
风险等级评估方法
训练样本集
神经网络训练
风险预测方法
血流动力学参数
序列
影像
心脏解剖结构
心脏磁共振