摘要
本发明涉及AI推理技术领域,提供了一种分布式AI推理场景的请求故障转移方法,包括:API服务接收用户推理请求后,通过网关转发至推理引擎实例,将原始文本prompt编码为input_tokens并执行Prefilling处理,生成结果后进入Decoding阶段持续生成tokens。在此过程中,系统实时检测实例运行状态,若因网络波动、硬件故障或显存OOM等异常导致推理中断,会获取已生成的tokens并与原始input_tokens拼接为new_input_tokens,通过调度模块转发至健康实例。新实例利用KV缓存技术对new_input_tokens执行Prefilling,基于Prefill结果续推剩余tokens,再将新生成的tokens解码为文本chunk并以流式返回客户端,直至完成推理会话。该方法避免用户感知推理异常,减少重试耗时,有效提升服务SLA,保障推理过程的连贯性与高效性。
技术关键词
故障转移方法
客户端
缓存技术
文本
场景
阶段
会话
解码
序列
模块
注意力
推理技术
迁移技术
可读存储介质
网关
网络
处理器
计算机设备
编码