摘要
本发明属于情感计算技术领域,具体涉及一种基于扩散增强和多粒度特征融合的语音情感识别方法,该方法将音频转换为梅尔频谱图;将梅尔频谱图输入扩散模型中,再逐步进行正向扩散注入噪声和反向扩散去除噪声,以恢复出更加清晰的音频;提取增强后音频的特征,然后从音频中提取出帧级特征、段级特征和话语级特征,再进行自适应特征选择,通过权重位置依赖进行深层融合;将融合后的多粒度语音特征输入动态图卷积情感分类模型,生成情感状态识别结果。本发明可提供多分类语音情感识别和语音质量增强等服务,从而在交互中提供更加人性化的响应。
技术关键词
语音特征
语音情感识别方法
情感类别
情感分类模型
节点特征
音频
情感状态识别
情感计算技术
记忆
交叉注意力机制
网络
多头注意力机制
邻居
矩阵
描述符
消除方法
冗余
系统为您推荐了相关专利信息
干扰决策方法
对抗系统
深度Q神经网络
全局状态信息
团队
分数预测模型
问答模型
语义向量
知识图谱构建
行业词典