摘要
本发明涉及语音通信技术领域,特别涉及一种低延迟实时语音转文字及文字转语音传输方法,所述方法包括以下步骤:通过语音采集装置获取语音数据,并将语音数据发送至云端进行预处理;通过滑动时间窗口逐秒接收音频流数据;通过语音识别模型对滑动窗口内接收到的音频数据进行实时语音识别,生成初步文本;通过异步校正算法,在后台对初步文本进行二次校验和修正;通过文本转语音算法将文字转换为语音数据;通过实时传输协议进行数据传输,使用UDP协议来保证低延迟;同时,采用NACK(丢包重传机制)和/或FEC(前向错误纠正技术)来处理网络丢包问题,以此增强通信的稳定性和质量。
技术关键词
语音传输方法
实时语音
语音识别模型
低延迟
音频
拥堵状况
滑动时间窗口
文本
滑动窗口
语音采集装置
校正算法
长短期记忆网络
数据
LSTM模型
语音算法
消除背景噪音
协议
字词
频谱特征
系统为您推荐了相关专利信息
对话系统
语音识别模块
对话方法
生成数字人
工具包
管理方法
设备健康管理
低延迟数据
设备状态监测
齿轮箱温度