大语言模型服务中请求重调度的方法、装置、设备及介质

AITNT
正文
推荐专利
大语言模型服务中请求重调度的方法、装置、设备及介质
申请号:CN202510230430
申请日期:2025-02-28
公开号:CN119718594B
公开日期:2025-07-08
类型:发明专利
摘要
本发明涉及大语言模型技术领域,特别涉及一种大语言模型服务中请求重调度的方法、装置、设备及介质。方法包括:根据每个实例中大语言模型服务请求的排队情况和键值缓存计算每个实例的调度量,并确定至少一个待调度的源实例和每个待调度的源实例对应的目标实例;在接收到迁移指令时,基于大语言模型服务请求的类型和预设的迁移策略,将每个待调度的源实例中的令牌和/或键值缓存迁移至每个待调度的源实例对应的目标实例,并将大语言模型服务请求的响应结果反馈至用户。由此,通过在动态环境中实现高效的请求分配,解决了传统调度策略在面对大语言模型请求的不可确定性和动态性时无法有效调度的问题,从而提升了系统的资源利用率和响应性能。
技术关键词
大语言模型 键值 令牌 策略 批量 处理器 可读存储介质 解码 指令 模块 存储器 标记 电子设备 计算机 节点 动态 资源
系统为您推荐了相关专利信息
1
一种意图识别和槽位抽取的方法、装置及介质
文本 意图类别 意图识别 意图分类模型 格式模板
2
模型训练方法、装置、设备、介质及程序产品
模型训练方法 大语言模型 计算机可执行指令 指标 模型库
3
物联网规则引擎智能体自适应决策执行的方法及相关设备
情景感知模型 情景感知信息 决策算法 实时信息 设备状态数据
4
一种基于大语言模型的APT攻击检测方法
攻击检测方法 大语言模型 恶意实体 评分机制 多模型协同
5
一种注意力迁移方法、数据处理方法和大语言模型
注意力 参数 学生 计算机程序指令 数据处理方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号