一种分布式AI推理场景下的请求故障转移方法及系统

AITNT
正文
推荐专利
一种分布式AI推理场景下的请求故障转移方法及系统
申请号:CN202510857179
申请日期:2025-06-25
公开号:CN120675860A
公开日期:2025-09-19
类型:发明专利
摘要
本发明涉及AI推理技术领域,提供了一种分布式AI推理场景的请求故障转移方法,包括:API服务接收用户推理请求后,通过网关转发至推理引擎实例,将原始文本prompt编码为input_tokens并执行Prefilling处理,生成结果后进入Decoding阶段持续生成tokens。在此过程中,系统实时检测实例运行状态,若因网络波动、硬件故障或显存OOM等异常导致推理中断,会获取已生成的tokens并与原始input_tokens拼接为new_input_tokens,通过调度模块转发至健康实例。新实例利用KV缓存技术对new_input_tokens执行Prefilling,基于Prefill结果续推剩余tokens,再将新生成的tokens解码为文本chunk并以流式返回客户端,直至完成推理会话。该方法避免用户感知推理异常,减少重试耗时,有效提升服务SLA,保障推理过程的连贯性与高效性。
技术关键词
故障转移方法 客户端 缓存技术 文本 场景 阶段 会话 解码 序列 模块 注意力 推理技术 迁移技术 可读存储介质 网关 网络 处理器 计算机设备 编码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号