摘要
本申请提出了一种基于时频域动态特征矩阵的说话人识别方法和系统,将原始语音的时间动态特征序列映射为二维图像并通过相似性矩阵计算相似度,采用自适应加权方法增强时间动态特征序列中的时域动态特征;对原始语音进行短时傅里叶变换得到频谱值并计算频域动态特征,对相似性阈值进行动态调整;在卷积神经网络模型CNN中进行训练,通过传统方式提取声学特征得到原始语音的初始说话人特征;特征融合分类器根据全连接层的加权自适应融合的特征向量计算说话人的类别概率分布,将概率最大的类别作为最终的结果。本申请提高了复杂场景中说话人识别的准确性和鲁棒性,增强了对不同语音场景的适应能力,更好地保留了语音信号中识别说话人身份的信息。
技术关键词
动态
说话人识别方法
语音
融合分类器
矩阵
短时傅里叶变换
特征提取方式
加权方法
声学特征
说话人识别系统
识别说话人
卷积神经网络模型
序列
信号
计算机程序产品
识别模块
图像
鲁棒性
系统为您推荐了相关专利信息
广告
卡尔曼滤波
图形处理单元
逻辑
深度学习预测
深度强化学习
多状态
估计方法
锂离子电池
数据验证方法
哈希学习方法
迭代优化算法
标签
样本
拉格朗日乘子法