摘要
本发明涉及大语言模型技术领域,特别涉及一种大语言模型服务中请求重调度的方法、装置、设备及介质。方法包括:根据每个实例中大语言模型服务请求的排队情况和键值缓存计算每个实例的调度量,并确定至少一个待调度的源实例和每个待调度的源实例对应的目标实例;在接收到迁移指令时,基于大语言模型服务请求的类型和预设的迁移策略,将每个待调度的源实例中的令牌和/或键值缓存迁移至每个待调度的源实例对应的目标实例,并将大语言模型服务请求的响应结果反馈至用户。由此,通过在动态环境中实现高效的请求分配,解决了传统调度策略在面对大语言模型请求的不可确定性和动态性时无法有效调度的问题,从而提升了系统的资源利用率和响应性能。
技术关键词
大语言模型
键值
令牌
策略
批量
处理器
可读存储介质
解码
指令
模块
存储器
标记
电子设备
计算机
节点
动态
资源
系统为您推荐了相关专利信息
模型训练方法
大语言模型
计算机可执行指令
指标
模型库
情景感知模型
情景感知信息
决策算法
实时信息
设备状态数据
攻击检测方法
大语言模型
恶意实体
评分机制
多模型协同