一种面向实时语音交互的多人语音分离与识别系统及方法

AITNT
正文
推荐专利
一种面向实时语音交互的多人语音分离与识别系统及方法
申请号:CN202511226556
申请日期:2025-08-29
公开号:CN120823844A
公开日期:2025-10-21
类型:发明专利
摘要
本发明公开了一种面向实时语音交互的多人语音分离与识别系统及方法,属于语音信号处理技术领域。技术原理包括:通过音频采集模块分割流式语音并存入循环队列;预处理模块转换为标准wav文件;语音分离模块采用SepFormer模型分离说话人轨迹;语音识别模块通过Paraformer模型对语音执行端到端转写;结果管理模块绑定说话人编号与文本后结构化输出。多线程异步架构使采集、分离、识别并行处理,结合循环队列实现低延迟;SepFormer与Paraformer协同提升重叠语音分离精度及识别准确率;支持JSON/数据库多格式输出,满足实时会议、智能设备交互需求。
技术关键词
实时语音 音频采集模块 语音识别模块 识别系统 自动语音识别 队列 语音信号处理技术 格式 采集工具 识别方法 智能设备交互 解码器 多线程 轨道 采样率 文本 编码器特征
系统为您推荐了相关专利信息
1
基于并行处理混合专家网络的多任务语音情感识别方法
混合专家网络 语音情感识别方法 说话人识别 多任务 语音情感识别系统
2
一种基于谱图论的输电断面安全约束风险识别方法及系统
风险识别方法 网络拓扑 权值模型 对象 支路
3
基于重新编程预训练语言模型的意图识别方法及系统
预训练语言模型 意图识别方法 分块 自然语言文本 编程
4
一种无人机遥感垃圾识别方法、介质及系统
垃圾识别方法 无人机遥感 可见光图像 融合特征 纹理特征
5
一种基于图像识别的杂草清理方法及系统
图像识别系统 杂草 除草机 清理方法 坐标
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号