摘要
本申请涉及人工智能技术领域,公开了一种基于强化学习的推理请求调度方法、装置、设备及介质,应用于推理集群路由调度系统,其中方法包括:基于当前用于表征系统运行情况的当前状态空间,通过强化学习模型确定调度推理请求相匹配的目标模型实例;接收目标模型实例对推理请求依次经过预填充阶段和解码阶段进行处理返回的结果返回给用户;其中,强化学习模型将评估期望值和选择动作分别置于目标网络和主网络中,主网络根据当前状态空间输出各个动作的期望值并选择最大期望值的动作,目标网络评估执行选择的动作后的目标期望值,更新网络参数,以完成强化学习模型的训练。本申请提供的技术方案能够平衡模型实例的节点负载均衡和KV缓存命中率。
技术关键词
强化学习模型
请求调度方法
更新网络参数
表征系统
调度系统
阶段
贪婪策略
计算机
缓存命中率
可读存储介质
人工智能技术
集群
调度装置
指标
解码
数据更新
存储器
处理器
指令
系统为您推荐了相关专利信息
动态调度系统
巡检机器人
匹配校正方法
负载均衡方法
环境光照强度
强化学习模型
指标
滑动窗口
数据采集方法
生成多尺度
微电网
Stackelberg博弈模型
集群
新能源发电单元
电力系统调度技术
交通工具数据
交通调度方法
网络拓扑
实时数据
实时路况
双旋翼无人机
智能系统
高原
深度强化学习模型
三维环境地图