摘要
本发明公开了一种面向实时语音交互的多人语音分离与识别系统及方法,属于语音信号处理技术领域。技术原理包括:通过音频采集模块分割流式语音并存入循环队列;预处理模块转换为标准wav文件;语音分离模块采用SepFormer模型分离说话人轨迹;语音识别模块通过Paraformer模型对语音执行端到端转写;结果管理模块绑定说话人编号与文本后结构化输出。多线程异步架构使采集、分离、识别并行处理,结合循环队列实现低延迟;SepFormer与Paraformer协同提升重叠语音分离精度及识别准确率;支持JSON/数据库多格式输出,满足实时会议、智能设备交互需求。
技术关键词
实时语音
音频采集模块
语音识别模块
识别系统
自动语音识别
队列
语音信号处理技术
格式
采集工具
识别方法
智能设备交互
解码器
多线程
轨道
采样率
文本
编码器特征
系统为您推荐了相关专利信息
混合专家网络
语音情感识别方法
说话人识别
多任务
语音情感识别系统
预训练语言模型
意图识别方法
分块
自然语言文本
编程
垃圾识别方法
无人机遥感
可见光图像
融合特征
纹理特征