推理服务方法、处理装置、设备、存储介质和程序产品

正文

推荐专利

申请号：CN202411920282

申请日期：2024-12-24

公开号：CN119862958A

公开日期：2025-04-22

类型：发明专利

摘要

本公开提供了一种推理服务方法、处理装置、设备、存储介质和程序产品，涉及人工智能技术领域。其中，大模型推理服务方法包括：监测所述多个解码节点的第一算力资源以及监测预填充节点与解码节点之间的迁移链路的性能指标；响应于大模型推理任务，将推理任务分配至多个预填充节点，生成对应的键值缓存KV Cache数据；基于第一算力资源和/或性能指标对KV Cache数据进行分片处理，得到KV Cache分片；向多个解码节点迁移KV Cache分片，以由多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对KV Cache分片进行解码操作，得到推理结果。通过本公开的技术方案，能够提升KV Cache数据的迁移效率和迁移稳定性，结合均衡机制能够提升大模型推理任务的推理效率。

技术关键词

分片解码节点注意力链路流水线资源机制网络数据键值处理器服务装置人工智能技术计算机程序产品分支监测模块参数可读存储介质

系统为您推荐了相关专利信息

一种图像勾画模型的训练方法及图像勾画方法

样本医学影像数据图像勾画方法掩膜数据注意力机制

多智能体图强化学习驱动的主动配电网多时间尺度滚动优化方法

滚动优化方法多时间尺度混合整数二阶锥规划电压调节设备无功补偿设备

一种反演新材料结构参数的智能优化方法

智能优化方法拓扑结构特征时间序列特征拓扑特征图像特征提取

一种板材并行铆接任务分配与路径规划协同优化方法

协同优化方法铆钉孔遗传算法求解板材工位

数据驱动的高压直流输电系统电压预防控制方法及装置

系统运行状态直流外送功率高压直流输电系统预防控制方法新能源机组

推理服务方法、处理装置、设备、存储介质和程序产品

站点导航

APP 下载