摘要
本发明提供了一种具有打断处理功能的低延迟流式语音交互系统,涉及人工智能的技术领域,本发明通过实时声学处理模块进行必要的预处理和声学特征提取,通过鲁棒性增强技术对抗交互信道引入的失真和复杂环境噪声;流式声学解码模块通过实时并行进行声学建模、语言模型应用和解码,输出超低延迟的文本转写结果流;实时声学处理模块结合信号处理技术负责高精度、超低延迟地检测用户语音活动,尤其是在AI播放语音期间的用户语音活动来判断用户的实时语音活动状态;系统各模块之间以及与通信平台之间采用高效、低延迟的双向流式网络传输方式,确保音频流、声学特征流、文本流和控制信号能够以极低的端到端延迟进行实时传输和处理。
技术关键词
语音交互系统
实时语音
声学特征
输入神经网络模型
深度学习模型
子模块
文本
解码模块
网络传输方式
语音活动检测
语音输入模块
解码器
信号处理技术
输出模块
音频播放器
系统为您推荐了相关专利信息
导电粒子
图像处理算法
智能检测算法
策略
工业视觉检测
生成表格
训练机器学习模型
参数
解析算法
机器学习模型训练
深度学习系统
半监督学习模型
深度学习模型
对抗性
语义
优化治理方法
电能
密集卷积网络
时域特征
频域特征