摘要
本申请公开了一种实时流式语音智能问答服务系统的构建方法,包括:接收输入的语音数据;调用独立的语音识别服务将语音数据转换为输入文本;基于输入文本构建大语言模型的提示语,向独立的大语言模型服务发起LLM流式请求,实时获取LLM生成的流式文本回答;通过动态句子切分器对流式文本回答进行实时切分,生成多个子句;对每个子句并行调用独立的语音合成服务,将文本转换为音频数据块;将所述音频数据块按生成顺序组合为流式音频数据,实时返回至客户端播放。本发明通过解耦ASR、LLM与TTS服务,结合异步流式框架与“边想边说”策略,显著提升了语音问答系统的实时性与灵活性。
技术关键词
音频
队列
文本
语音识别服务
数据
服务系统
客户端
语音问答系统
业务场景构建
大语言模型
标识符
生成技术
动态
框架
语义
变量
策略
接口
系统为您推荐了相关专利信息
灌溉用水量
设备运行信息
智慧泵站
人工智能模型
水泵
多源异构数据融合
局部特征信息
遥感影像数据
图像局部特征
语义