摘要
本发明公开了一种音频说话人识别方法、系统、存储介质及电子设备,属于音频处理和人工智能领域,方法包括:对输入音频进行预处理,提取输入音频的声道信息,判断音频类型为单声道或双声道;对于双声道音频,通过比较左右声道的至少两种声学特征参数,判断音频类型为伪双声道或真双声道;根据音频类型选择处理策略;对选定声道依次进行降噪预处理、语音活动检测、说话人分割、内容识别与标点恢复;采用大语言模型对音频内容识别的结果进行说话人角色标记;合并同一说话人角色的内容片段,生成结构化输出。本发明通过多维声学特征分析、深度学习模型与大语言模型协同,提高识别准确率与自动化程度,并能适应各种复杂的音频场景。
技术关键词
说话人识别方法
双声道
音频
执行说话人识别
大语言模型
语音活动检测
说话人识别系统
声学特征分析
标记
电子设备
可读存储介质
深度学习模型
特征提取模块
计算机
处理器
策略
算法
输出模块
系统为您推荐了相关专利信息
图像生成模型
文本生成模型
多媒体
音频
生成指令