摘要
本申请是关于一种基于自适应交叉注意力的多维语音情感识别方法及系统,其中,方法包括:获取多条原始语音数据与对应标签,提取每条原始语音数据对应的频谱图图像和梅尔频率倒谱系数谱,并与对应标签相结合,得到训练数据集;构建基于自适应交叉注意力的多维语音情感识别模型;将训练数据集输入特征提取层提取声学特征,并通过特征融合层生成多维语音情感特征;将多维语音情感特征输入情绪分类器,并构建交叉熵损失函数训练基于自适应交叉注意力的多维语音情感识别模型。能够全面捕捉语音信号中的情感信息,提升模型对语音数据的理解能力,显著提高特征利用率。
技术关键词
语音情感识别模型
梅尔频率倒谱系数
语音情感识别方法
声学特征
情感特征
训练语音模型
交叉注意力机制
语音情感识别系统
编码器模块
分类器
标签
图像
模型训练模块
数据获取模块
系统为您推荐了相关专利信息
声音分类方法
算法
变异策略
长短期记忆网络
梅尔频率倒谱系数
变速器齿轮
梅尔频率倒谱系数
牵引车
故障预测模型
XGBoost算法
地下工程施工机械
跨模态
注意力机制
特征提取模块
深度识别方法