基于短语音的说话人识别预训练模型引导的声纹聚类方法

正文

推荐专利

申请号：CN202510350201

申请日期：2025-03-24

公开号：CN120375834A

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开了一种基于短语音的说话人识别预训练模型引导的声纹聚类方法，该方法包括下述步骤：获取原始语音信号，随机组合多种增强策略实现数据增强；基于均匀分割方式对数据增强后的语音信号进行语音分段；基于全局时频域上下文建模的注意力机制提取分段后的语音的声纹特征；基于K均值聚类和谱聚类得到聚类结果，将聚类结果匹配真实说话人标签，基于角度依赖的AAM‑Softmax损失进行反向传递，输出声纹聚类结果。本发明能克服环境干扰对特征提取的影响，筛选对身份辨识更有效的特征维度，能够以较低的参数量取得优于主流算法的聚类输出效果，提升了在噪声干扰条件下的鲁棒性。

技术关键词

声纹聚类方法说话人识别预训练模型语音拉普拉斯声纹特征矩阵注意力机制样本分段通道均值聚类算法带阻滤波器信号加性噪声频率数据特征值

系统为您推荐了相关专利信息

一种深度学习模型训练数据增强方法

深度学习模型训练风格多层卷积网络数据训练深度学习模型

消息展示方法及装置

车机车辆状态数据消息展示方法列表消息中心

一种陪伴机器人控制方法及陪伴机器人

陪伴机器人感应模块输出模块主控模块数据传输接口

语音交互方法、装置、智能终端及可读存储介质

语音交互方法人脸特征生成数字人人脸表情多模态信息

一种物体搬移方法、装置、电子设备及机器人

语音接收装置图像采集装置物体障碍物数据

基于短语音的说话人识别预训练模型引导的声纹聚类方法

站点导航

APP 下载