摘要
本发明请求保护一种基于融合特征降维的Fca‑ProRes2Net说话人识别方法,包括步骤:S1,将语音信号进行预处理,得到适合提取说话人特征的语音信号,并将MFCC、GFCC以及它们的动态特征参数构成一种新的混合参数,该特征参数囊括了中高频以及动静态特征;S2,利用2DPCA对特征矩阵降维整合得到MMGFCC;S3,采用多尺度全连接的Res2Net网络来获取更大范围的感受野;S4,在主干网络ProRes2Net中加入频率域通道注意力网络:FcaNet,引入更多的频率分量信息;S5,运用Softmax函数对输出结果进行分类处理,之后使用交叉熵损失函数来寻求最优权重参数,最终得到优化的说话人识别模型。本发明可以有效地提取出表征能力强的特征参数并能高效地识别,提高了识别能力和泛化能力。
技术关键词
说话人识别方法
Softmax函数
说话人识别模型
融合特征
动静态特征
二维主成分分析
非暂态计算机可读存储介质
梅尔频率倒谱系数
语音特征
残差网络
多尺度
矩阵
信号
离散余弦变换
注意力
通道
系统为您推荐了相关专利信息
智能标注方法
场景三维点云
激光雷达点云数据
语义特征
融合规则信息
多头注意力机制
模块
多尺度特征融合
YOLO模型
协同注意力
识别方法
卷积神经网络学习
高斯核函数
Softmax函数
嵌入秘密信息