摘要
本发明公开了一种语音情绪识别方法、系统、设备和介质,其涉及语音识别技术领域。包括:获取音频数据,提取音频数据的音频情感特征;将音频数据转录为文本数据,提取文本数据的低层文本特征;分别对音频情感特征表示和低层文本特征进行高层特征提取,得到高层音频特征和高层文本特征;将高层音频特征和高层文本特征映射到同一维度后进行跨模态融合,得到音频‑文本融合特征;将高层音频特征、高层文本特征和音频‑文本融合特征进行拼接,得到多模态特征;对多模态特征中多个特征的权重进行加权融合,得到加权融合特征,及根据加权融合特征确定对应的情绪识别结果。本发明能够显著提升在存在噪声干扰的复杂环境下的情绪识别准确性。
技术关键词
语音情绪识别方法
文本
融合特征
情感特征
注意力机制
音频特征提取
梅尔频率倒谱系数
音质特征
跨模态
多模态特征
深度卷积神经网络
韵律特征
语音情绪识别系统
识别模块
长短期记忆网络
双向变换器
系统为您推荐了相关专利信息
请求检测方法
检索策略
融合方法
多模态
计算机程序产品
企业创新能力
预测装置
指标系统
注意力机制
雷达
道路交通状态
交通系统
交通流
时空注意力机制
融合特征
特高压隔离开关
图像特征向量
更新模型参数
开关运行状态
场景