摘要
本发明公开了一种基于Ray框架的通用分布式执行方法、装置、系统和介质。该方法包括:通过云平台的任务运行器启动Ray主节点与工作节点,并注入环境变量进行任务配置;获取并解析每一工作节点注入的环境变量,根据任务所需资源自动计算推理实例数,并启动推理引擎;监控每一工作节点本地推理实例的健康检查端口,在本地推理实例启动成功后,将启动成功的本地推理实例URL上报至Ray主进程;Ray主进程收集所有推理实例URL,启动并配置sglang路由器;监控sglang路由器的状态,并在路由器状态确认就绪后,运行任务脚本。本发明能够在主流云平台上以最小配置完成多节点推理任务的协调与执行,从而显著降低开发成本,并可提升大规模模型在评估和采样任务中的实验效率。
技术关键词
分布式执行方法
路由器
云平台
实例管理模块
健康监测模块
进程
策略
脚本
推理系统
可读存储介质
资源
队列
处理器
执行装置
框架
多节点
端口
存储器