摘要
本发明提供一种基于多尺度CNN和Transformer融合的语音情感识别方法,包括如下步骤:对原始语音信号进行预处理,添加AWGN进行数据增强提取MFCC特征图;将MFCC特征图输入多尺度CNN,通过不同尺寸的卷积核提取局部频谱特征;将MFCC特征图输入Transformer编码器,提取全局时序依赖特征;将生成的局部和全局特征输入交叉注意力加权融合模块,生成联合特征表示,输入全连接分类器,采用Softmax函数计算情感类别概率分布,输出最终情感识别结果。本发明提供的基于多尺度CNN和Transformer融合的语音情感识别方法,通过CNN与Transformer结合的并行架构,兼顾局部频域特征和全局时序依赖的提取能力;引入交叉注意力加权融合,动态调整局部频域特征与全局时序特征的权重配比,有效提升情感识别的准确性和鲁棒性。
技术关键词
语音情感识别方法
MFCC特征
情感类别
Softmax函数
前馈神经网络
输入多尺度
噪声功率
通道
梅尔频率倒谱系数
情感特征
语音信号提取
矩阵
频域特征
交叉注意力机制
编码器
系统为您推荐了相关专利信息
空谱联合特征
高光谱图像解混
像素
空间光谱特征
前馈神经网络
数据分析模型
无人机LiDAR数据
多任务深度学习网络
数据处理方法
卫星遥感数据
人脸识别模型
Softmax函数
模型训练模块
人脸特征
人脸识别系统
语音
智能检测方法
波形特征提取
交互注意力
序列
台阶灯
感应控制系统
数据分析模块
智能感应控制方法
数据采集模块