一种面向实时语音交互的多人语音分离与识别系统及方法

正文

推荐专利

申请号：CN202511226556

申请日期：2025-08-29

公开号：CN120823844A

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开了一种面向实时语音交互的多人语音分离与识别系统及方法，属于语音信号处理技术领域。技术原理包括：通过音频采集模块分割流式语音并存入循环队列；预处理模块转换为标准wav文件；语音分离模块采用SepFormer模型分离说话人轨迹；语音识别模块通过Paraformer模型对语音执行端到端转写；结果管理模块绑定说话人编号与文本后结构化输出。多线程异步架构使采集、分离、识别并行处理，结合循环队列实现低延迟；SepFormer与Paraformer协同提升重叠语音分离精度及识别准确率；支持JSON/数据库多格式输出，满足实时会议、智能设备交互需求。

技术关键词

实时语音音频采集模块语音识别模块识别系统自动语音识别队列语音信号处理技术格式采集工具识别方法智能设备交互解码器多线程轨道采样率文本编码器特征

系统为您推荐了相关专利信息

基于并行处理混合专家网络的多任务语音情感识别方法

混合专家网络语音情感识别方法说话人识别多任务语音情感识别系统

一种基于谱图论的输电断面安全约束风险识别方法及系统

风险识别方法网络拓扑权值模型对象支路

基于重新编程预训练语言模型的意图识别方法及系统

预训练语言模型意图识别方法分块自然语言文本编程

一种无人机遥感垃圾识别方法、介质及系统

垃圾识别方法无人机遥感可见光图像融合特征纹理特征

一种基于图像识别的杂草清理方法及系统

图像识别系统杂草除草机清理方法坐标

一种面向实时语音交互的多人语音分离与识别系统及方法

站点导航

APP 下载