摘要
本发明属于声纹识别技术领域,公开了一种基于语义内容多粒度解纠缠的说话人确认方法及装置。该方法通过双分支网络模型分别提取第一帧级声纹特征和语义特征,经维度匹配模块得到第二帧级特征,经聚合模块得到话语级特征;构建帧级和话语级解纠缠损失,结合多粒度解纠缠损失和声纹分类损失形成总损失函数训练模型;利用训练好的模型提取待比较语音的话语级声纹特征进行身份确认。本发明通过多粒度解纠缠消除语义内容干扰,提升声纹特征准确性,同时采用预训练语义编码器降低计算复杂度,适用于文本无关的说话人确认场景。
技术关键词
声纹特征
语义特征
双分支网络
语音特征
匹配模块
声纹识别技术
编码器
频率
预训练模型
声学特征
复杂度
卷积模块
识别模块
数据
标签
参数
系统为您推荐了相关专利信息
深度聚类方法
语义特征
图像编码器
聚类算法
非暂态计算机可读存储介质
体育场
限流方法
管理系统
客户端
多维度评估模型