基于大模型的声纹识别方法、装置、设备及介质

正文

推荐专利

申请号：CN202510694266

申请日期：2025-05-27

公开号：CN120340503A

公开日期：2025-07-18

类型：发明专利

摘要

本发明公开了一种基于大模型的声纹识别方法、装置、设备及介质，其中的方法通过使用Transformer架构的自动语音识别模型处理输入音频，输出带时间戳的字符级概率序列。将所述字符级概率序列转换为初始文本，输入预训练的语言模型进行语义分句，获得多个分句的文本及对应的音频时间区间。再根据所述字符级概率序列通过预设的清晰度评分公式计算各分句的语音清晰度得分。依据所述音频时间区间确定各所述分句的音频区间，于所述分句的音频区间提取声纹特征向量，并按所述语音清晰度得分对所述声纹特征向量进行加权融合，生成最终声纹特征。最终将所述最终声纹特征与声纹数据库比对，完成身份识别。该方法提升了声纹识别结果的清晰度，提升了可靠性。

技术关键词

声纹识别方法声纹特征自动语音识别音频字符带时间文本序列声纹识别装置语义联合损失函数计算机设备存储计算机程序存储器时序背景噪声加密身份处理器

系统为您推荐了相关专利信息

光伏信息分析方法、装置及存储介质

文本信息分析方法数据非暂态计算机可读存储介质大语言模型

音频信号降噪方法和降噪系统

信号降噪方法降噪模块降噪系统矩阵降噪模型

多模态特征融合的高品质智能声线编辑方法及装置

音频特征多模态特征融合编辑方法频段计算机可执行指令

设备的软件定向部署方法、装置、电子设备及存储介质

校验算法校验信息软件字符字段

任务执行方法、装置及电子设备

电子设备 AI助手会话消息程序

基于大模型的声纹识别方法、装置、设备及介质

站点导航

APP 下载