基于多尺度CNN和Transformer融合的语音情感识别方法

正文

推荐专利

申请号：CN202510437115

申请日期：2025-04-09

公开号：CN120260616A

公开日期：2025-07-04

类型：发明专利

摘要

本发明提供一种基于多尺度CNN和Transformer融合的语音情感识别方法，包括如下步骤：对原始语音信号进行预处理，添加AWGN进行数据增强提取MFCC特征图；将MFCC特征图输入多尺度CNN，通过不同尺寸的卷积核提取局部频谱特征；将MFCC特征图输入Transformer编码器，提取全局时序依赖特征；将生成的局部和全局特征输入交叉注意力加权融合模块，生成联合特征表示，输入全连接分类器，采用Softmax函数计算情感类别概率分布，输出最终情感识别结果。本发明提供的基于多尺度CNN和Transformer融合的语音情感识别方法，通过CNN与Transformer结合的并行架构，兼顾局部频域特征和全局时序依赖的提取能力；引入交叉注意力加权融合，动态调整局部频域特征与全局时序特征的权重配比，有效提升情感识别的准确性和鲁棒性。

技术关键词

语音情感识别方法 MFCC特征情感类别 Softmax函数前馈神经网络输入多尺度噪声功率通道梅尔频率倒谱系数情感特征语音信号提取矩阵频域特征交叉注意力机制编码器

系统为您推荐了相关专利信息

一种基于空谱联合特征的线性高光谱图像解混方法及系统

空谱联合特征高光谱图像解混像素空间光谱特征前馈神经网络

一种基于云的测绘数据处理方法及其系统

数据分析模型无人机LiDAR数据多任务深度学习网络数据处理方法卫星遥感数据

一种提升人脸识别模型能力的训练方案及系统

人脸识别模型 Softmax函数模型训练模块人脸特征人脸识别系统

通话质量智能检测方法、装置及存储介质

语音智能检测方法波形特征提取交互注意力序列

一种台阶灯智能感应控制系统及控制方法

台阶灯感应控制系统数据分析模块智能感应控制方法数据采集模块

基于多尺度CNN和Transformer融合的语音情感识别方法

站点导航

APP 下载