一种基于语义内容多粒度解纠缠的说话人确认方法及装置

正文

推荐专利

申请号：CN202511043577

申请日期：2025-07-28

公开号：CN120636377A

公开日期：2025-09-12

类型：发明专利

摘要

本发明属于声纹识别技术领域，公开了一种基于语义内容多粒度解纠缠的说话人确认方法及装置。该方法通过双分支网络模型分别提取第一帧级声纹特征和语义特征，经维度匹配模块得到第二帧级特征，经聚合模块得到话语级特征；构建帧级和话语级解纠缠损失，结合多粒度解纠缠损失和声纹分类损失形成总损失函数训练模型；利用训练好的模型提取待比较语音的话语级声纹特征进行身份确认。本发明通过多粒度解纠缠消除语义内容干扰，提升声纹特征准确性，同时采用预训练语义编码器降低计算复杂度，适用于文本无关的说话人确认场景。

技术关键词

声纹特征语义特征双分支网络语音特征匹配模块声纹识别技术编码器频率预训练模型声学特征复杂度卷积模块识别模块数据标签参数

系统为您推荐了相关专利信息

一种基于多模态大模型引导的图像深度聚类方法及系统

深度聚类方法语义特征图像编码器聚类算法非暂态计算机可读存储介质

一种基于用户画像的AI智能短信内容生成优化方法及系统

关系网络图情感词典兴趣画像短信生成主题

一种基于机器学习的墨水配比优化方法及系统

配比优化方法墨水多模态物理参数编码器

一种用于X光图像危险品检测的轻量化模型的方法、系统、设备及介质

危险品卷积模块图像通道分支

应用于体育场管理系统中的多维度限流方法、系统及终端

体育场限流方法管理系统客户端多维度评估模型

一种基于语义内容多粒度解纠缠的说话人确认方法及装置

站点导航

APP 下载