一种音频说话人识别方法、系统、存储介质及电子设备

正文

推荐专利

申请号：CN202510697903

申请日期：2025-05-28

公开号：CN120220729A

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开了一种音频说话人识别方法、系统、存储介质及电子设备，属于音频处理和人工智能领域，方法包括：对输入音频进行预处理，提取输入音频的声道信息，判断音频类型为单声道或双声道；对于双声道音频，通过比较左右声道的至少两种声学特征参数，判断音频类型为伪双声道或真双声道；根据音频类型选择处理策略；对选定声道依次进行降噪预处理、语音活动检测、说话人分割、内容识别与标点恢复；采用大语言模型对音频内容识别的结果进行说话人角色标记；合并同一说话人角色的内容片段，生成结构化输出。本发明通过多维声学特征分析、深度学习模型与大语言模型协同，提高识别准确率与自动化程度，并能适应各种复杂的音频场景。

技术关键词

说话人识别方法双声道音频执行说话人识别大语言模型语音活动检测说话人识别系统声学特征分析标记电子设备可读存储介质深度学习模型特征提取模块计算机处理器策略算法输出模块

系统为您推荐了相关专利信息

可拓展的大语言模型越狱攻击方法、装置、介质和产品

大语言模型模板数据格式参数

一种基于大模型微调的电子病历文本规范化方法

电子病历文本规范化层级编码向量强度

一种针对模态缺失问题的多模态提示学习方法及系统

学习方法模态特征多模态预训练模型参数

一种数据处理方法及电子设备

图像生成模型文本生成模型多媒体音频生成指令

一种基于用户描述及上传材料与判决书进行相似度对比寻找律师的方法

律师案件度计算方法子模块向量空间模型

一种音频说话人识别方法、系统、存储介质及电子设备

站点导航

APP 下载