摘要
本发明公开了一种基于大模型的声纹识别方法、装置、设备及介质,其中的方法通过使用Transformer架构的自动语音识别模型处理输入音频,输出带时间戳的字符级概率序列。将所述字符级概率序列转换为初始文本,输入预训练的语言模型进行语义分句,获得多个分句的文本及对应的音频时间区间。再根据所述字符级概率序列通过预设的清晰度评分公式计算各分句的语音清晰度得分。依据所述音频时间区间确定各所述分句的音频区间,于所述分句的音频区间提取声纹特征向量,并按所述语音清晰度得分对所述声纹特征向量进行加权融合,生成最终声纹特征。最终将所述最终声纹特征与声纹数据库比对,完成身份识别。该方法提升了声纹识别结果的清晰度,提升了可靠性。
技术关键词
声纹识别方法
声纹特征
自动语音识别
音频
字符
带时间
文本
序列
声纹识别装置
语义
联合损失函数
计算机设备
存储计算机程序
存储器
时序
背景噪声
加密
身份
处理器
系统为您推荐了相关专利信息
文本
信息分析方法
数据
非暂态计算机可读存储介质
大语言模型
音频特征
多模态特征融合
编辑方法
频段
计算机可执行指令