一种基于语义内容多粒度解纠缠的说话人确认方法及装置

AITNT
正文
推荐专利
一种基于语义内容多粒度解纠缠的说话人确认方法及装置
申请号:CN202511043577
申请日期:2025-07-28
公开号:CN120636377A
公开日期:2025-09-12
类型:发明专利
摘要
本发明属于声纹识别技术领域,公开了一种基于语义内容多粒度解纠缠的说话人确认方法及装置。该方法通过双分支网络模型分别提取第一帧级声纹特征和语义特征,经维度匹配模块得到第二帧级特征,经聚合模块得到话语级特征;构建帧级和话语级解纠缠损失,结合多粒度解纠缠损失和声纹分类损失形成总损失函数训练模型;利用训练好的模型提取待比较语音的话语级声纹特征进行身份确认。本发明通过多粒度解纠缠消除语义内容干扰,提升声纹特征准确性,同时采用预训练语义编码器降低计算复杂度,适用于文本无关的说话人确认场景。
技术关键词
声纹特征 语义特征 双分支网络 语音特征 匹配模块 声纹识别技术 编码器 频率 预训练模型 声学特征 复杂度 卷积模块 识别模块 数据 标签 参数
系统为您推荐了相关专利信息
1
一种基于多模态大模型引导的图像深度聚类方法及系统
深度聚类方法 语义特征 图像编码器 聚类算法 非暂态计算机可读存储介质
2
一种基于用户画像的AI智能短信内容生成优化方法及系统
关系网络图 情感词典 兴趣画像 短信 生成主题
3
一种基于机器学习的墨水配比优化方法及系统
配比优化方法 墨水 多模态 物理 参数编码器
4
一种用于X光图像危险品检测的轻量化模型的方法、系统、设备及介质
危险品 卷积模块 图像 通道 分支
5
应用于体育场管理系统中的多维度限流方法、系统及终端
体育场 限流方法 管理系统 客户端 多维度评估模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号