一种音频说话人识别方法、系统、存储介质及电子设备

AITNT
正文
推荐专利
一种音频说话人识别方法、系统、存储介质及电子设备
申请号:CN202510697903
申请日期:2025-05-28
公开号:CN120220729A
公开日期:2025-06-27
类型:发明专利
摘要
本发明公开了一种音频说话人识别方法、系统、存储介质及电子设备,属于音频处理和人工智能领域,方法包括:对输入音频进行预处理,提取输入音频的声道信息,判断音频类型为单声道或双声道;对于双声道音频,通过比较左右声道的至少两种声学特征参数,判断音频类型为伪双声道或真双声道;根据音频类型选择处理策略;对选定声道依次进行降噪预处理、语音活动检测、说话人分割、内容识别与标点恢复;采用大语言模型对音频内容识别的结果进行说话人角色标记;合并同一说话人角色的内容片段,生成结构化输出。本发明通过多维声学特征分析、深度学习模型与大语言模型协同,提高识别准确率与自动化程度,并能适应各种复杂的音频场景。
技术关键词
说话人识别方法 双声道 音频 执行说话人识别 大语言模型 语音活动检测 说话人识别系统 声学特征分析 标记 电子设备 可读存储介质 深度学习模型 特征提取模块 计算机 处理器 策略 算法 输出模块
系统为您推荐了相关专利信息
1
可拓展的大语言模型越狱攻击方法、装置、介质和产品
大语言模型 模板 数据 格式 参数
2
一种基于大模型微调的电子病历文本规范化方法
电子病历 文本规范化 层级 编码向量 强度
3
一种针对模态缺失问题的多模态提示学习方法及系统
学习方法 模态特征 多模态 预训练模型 参数
4
一种数据处理方法及电子设备
图像生成模型 文本生成模型 多媒体 音频 生成指令
5
一种基于用户描述及上传材料与判决书进行相似度对比寻找律师的方法
律师 案件 度计算方法 子模块 向量空间模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号