基于短语音的说话人识别预训练模型引导的声纹聚类方法

AITNT
正文
推荐专利
基于短语音的说话人识别预训练模型引导的声纹聚类方法
申请号:CN202510350201
申请日期:2025-03-24
公开号:CN120375834A
公开日期:2025-07-25
类型:发明专利
摘要
本发明公开了一种基于短语音的说话人识别预训练模型引导的声纹聚类方法,该方法包括下述步骤:获取原始语音信号,随机组合多种增强策略实现数据增强;基于均匀分割方式对数据增强后的语音信号进行语音分段;基于全局时频域上下文建模的注意力机制提取分段后的语音的声纹特征;基于K均值聚类和谱聚类得到聚类结果,将聚类结果匹配真实说话人标签,基于角度依赖的AAM‑Softmax损失进行反向传递,输出声纹聚类结果。本发明能克服环境干扰对特征提取的影响,筛选对身份辨识更有效的特征维度,能够以较低的参数量取得优于主流算法的聚类输出效果,提升了在噪声干扰条件下的鲁棒性。
技术关键词
声纹聚类方法 说话人识别 预训练模型 语音 拉普拉斯 声纹特征 矩阵 注意力机制 样本 分段 通道 均值聚类算法 带阻滤波器 信号 加性噪声 频率 数据 特征值
系统为您推荐了相关专利信息
1
一种深度学习模型训练数据增强方法
深度学习模型训练 风格 多层卷积网络 数据 训练深度学习模型
2
消息展示方法及装置
车机 车辆状态数据 消息展示方法 列表 消息中心
3
一种陪伴机器人控制方法及陪伴机器人
陪伴机器人 感应模块 输出模块 主控模块 数据传输接口
4
语音交互方法、装置、智能终端及可读存储介质
语音交互方法 人脸特征 生成数字人 人脸表情 多模态信息
5
一种物体搬移方法、装置、电子设备及机器人
语音接收装置 图像采集装置 物体 障碍物 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号