摘要
本发明公开了一种基于短语音的说话人识别预训练模型引导的声纹聚类方法,该方法包括下述步骤:获取原始语音信号,随机组合多种增强策略实现数据增强;基于均匀分割方式对数据增强后的语音信号进行语音分段;基于全局时频域上下文建模的注意力机制提取分段后的语音的声纹特征;基于K均值聚类和谱聚类得到聚类结果,将聚类结果匹配真实说话人标签,基于角度依赖的AAM‑Softmax损失进行反向传递,输出声纹聚类结果。本发明能克服环境干扰对特征提取的影响,筛选对身份辨识更有效的特征维度,能够以较低的参数量取得优于主流算法的聚类输出效果,提升了在噪声干扰条件下的鲁棒性。
技术关键词
声纹聚类方法
说话人识别
预训练模型
语音
拉普拉斯
声纹特征
矩阵
注意力机制
样本
分段
通道
均值聚类算法
带阻滤波器
信号
加性噪声
频率
数据
特征值
系统为您推荐了相关专利信息
深度学习模型训练
风格
多层卷积网络
数据
训练深度学习模型
陪伴机器人
感应模块
输出模块
主控模块
数据传输接口
语音交互方法
人脸特征
生成数字人
人脸表情
多模态信息