摘要
本公开提供了一种推理服务方法、处理装置、设备、存储介质和程序产品,涉及人工智能技术领域。其中,大模型推理服务方法包括:监测所述多个解码节点的第一算力资源以及监测预填充节点与解码节点之间的迁移链路的性能指标;响应于大模型推理任务,将推理任务分配至多个预填充节点,生成对应的键值缓存KV Cache数据;基于第一算力资源和/或性能指标对KV Cache数据进行分片处理,得到KV Cache分片;向多个解码节点迁移KV Cache分片,以由多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对KV Cache分片进行解码操作,得到推理结果。通过本公开的技术方案,能够提升KV Cache数据的迁移效率和迁移稳定性,结合均衡机制能够提升大模型推理任务的推理效率。
技术关键词
分片
解码
节点
注意力
链路
流水线
资源
机制
网络
数据
键值
处理器
服务装置
人工智能技术
计算机程序产品
分支
监测模块
参数
可读存储介质
系统为您推荐了相关专利信息
样本
医学影像数据
图像勾画方法
掩膜数据
注意力机制
滚动优化方法
多时间尺度
混合整数二阶锥规划
电压调节设备
无功补偿设备
智能优化方法
拓扑结构特征
时间序列特征
拓扑特征
图像特征提取
系统运行状态
直流外送功率
高压直流输电系统
预防控制方法
新能源机组