摘要
本发明公开了一种语音情绪识别方法、系统、设备和介质,其涉及语音识别技术领域。包括:获取音频数据,提取音频数据的音频情感特征;将音频数据转录为文本数据,提取文本数据的低层文本特征;分别对音频情感特征表示和低层文本特征进行高层特征提取,得到高层音频特征和高层文本特征;将高层音频特征和高层文本特征映射到同一维度后进行跨模态融合,得到音频‑文本融合特征;将高层音频特征、高层文本特征和音频‑文本融合特征进行拼接,得到多模态特征;对多模态特征中多个特征的权重进行加权融合,得到加权融合特征,及根据加权融合特征确定对应的情绪识别结果。本发明能够显著提升在存在噪声干扰的复杂环境下的情绪识别准确性。
技术关键词
语音情绪识别方法
文本
融合特征
情感特征
注意力机制
音频特征提取
梅尔频率倒谱系数
音质特征
跨模态
多模态特征
深度卷积神经网络
韵律特征
语音情绪识别系统
识别模块
长短期记忆网络
双向变换器
系统为您推荐了相关专利信息
序列预测模型
重要性检测方法
网格
元素
长短期记忆网络
空调运行状态
云端
故障预测模型
融合特征
多模态
句法信息
中文命名实体识别方法
序列
上下文特征
字符