一种分布式AI推理场景下的请求故障转移方法及系统

正文

推荐专利

申请号：CN202510857179

申请日期：2025-06-25

公开号：CN120675860A

公开日期：2025-09-19

类型：发明专利

摘要

本发明涉及AI推理技术领域，提供了一种分布式AI推理场景的请求故障转移方法，包括：API服务接收用户推理请求后，通过网关转发至推理引擎实例，将原始文本prompt编码为input_tokens并执行Prefilling处理，生成结果后进入Decoding阶段持续生成tokens。在此过程中，系统实时检测实例运行状态，若因网络波动、硬件故障或显存OOM等异常导致推理中断，会获取已生成的tokens并与原始input_tokens拼接为new_input_tokens，通过调度模块转发至健康实例。新实例利用KV缓存技术对new_input_tokens执行Prefilling，基于Prefill结果续推剩余tokens，再将新生成的tokens解码为文本chunk并以流式返回客户端，直至完成推理会话。该方法避免用户感知推理异常，减少重试耗时，有效提升服务SLA，保障推理过程的连贯性与高效性。

技术关键词

故障转移方法客户端缓存技术文本场景阶段会话解码序列模块注意力推理技术迁移技术可读存储介质网关网络处理器计算机设备编码

一种分布式AI推理场景下的请求故障转移方法及系统

站点导航

APP 下载