大语言模型服务中请求重调度的方法、装置、设备及介质

正文

推荐专利

申请号：CN202510230430

申请日期：2025-02-28

公开号：CN119718594B

公开日期：2025-07-08

类型：发明专利

摘要

本发明涉及大语言模型技术领域，特别涉及一种大语言模型服务中请求重调度的方法、装置、设备及介质。方法包括：根据每个实例中大语言模型服务请求的排队情况和键值缓存计算每个实例的调度量，并确定至少一个待调度的源实例和每个待调度的源实例对应的目标实例；在接收到迁移指令时，基于大语言模型服务请求的类型和预设的迁移策略，将每个待调度的源实例中的令牌和/或键值缓存迁移至每个待调度的源实例对应的目标实例，并将大语言模型服务请求的响应结果反馈至用户。由此，通过在动态环境中实现高效的请求分配，解决了传统调度策略在面对大语言模型请求的不可确定性和动态性时无法有效调度的问题，从而提升了系统的资源利用率和响应性能。

技术关键词

大语言模型键值令牌策略批量处理器可读存储介质解码指令模块存储器标记电子设备计算机节点动态资源

系统为您推荐了相关专利信息

一种意图识别和槽位抽取的方法、装置及介质

文本意图类别意图识别意图分类模型格式模板

模型训练方法、装置、设备、介质及程序产品

模型训练方法大语言模型计算机可执行指令指标模型库

物联网规则引擎智能体自适应决策执行的方法及相关设备

情景感知模型情景感知信息决策算法实时信息设备状态数据

一种基于大语言模型的APT攻击检测方法

攻击检测方法大语言模型恶意实体评分机制多模型协同

一种注意力迁移方法、数据处理方法和大语言模型

注意力参数学生计算机程序指令数据处理方法

大语言模型服务中请求重调度的方法、装置、设备及介质

站点导航

APP 下载