推理服务方法、处理装置、设备、存储介质和程序产品

AITNT
正文
推荐专利
推理服务方法、处理装置、设备、存储介质和程序产品
申请号:CN202411920282
申请日期:2024-12-24
公开号:CN119862958A
公开日期:2025-04-22
类型:发明专利
摘要
本公开提供了一种推理服务方法、处理装置、设备、存储介质和程序产品,涉及人工智能技术领域。其中,大模型推理服务方法包括:监测所述多个解码节点的第一算力资源以及监测预填充节点与解码节点之间的迁移链路的性能指标;响应于大模型推理任务,将推理任务分配至多个预填充节点,生成对应的键值缓存KV Cache数据;基于第一算力资源和/或性能指标对KV Cache数据进行分片处理,得到KV Cache分片;向多个解码节点迁移KV Cache分片,以由多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对KV Cache分片进行解码操作,得到推理结果。通过本公开的技术方案,能够提升KV Cache数据的迁移效率和迁移稳定性,结合均衡机制能够提升大模型推理任务的推理效率。
技术关键词
分片 解码 节点 注意力 链路 流水线 资源 机制 网络 数据 键值 处理器 服务装置 人工智能技术 计算机程序产品 分支 监测模块 参数 可读存储介质
系统为您推荐了相关专利信息
1
一种图像勾画模型的训练方法及图像勾画方法
样本 医学影像数据 图像勾画方法 掩膜数据 注意力机制
2
多智能体图强化学习驱动的主动配电网多时间尺度滚动优化方法
滚动优化方法 多时间尺度 混合整数二阶锥规划 电压调节设备 无功补偿设备
3
一种反演新材料结构参数的智能优化方法
智能优化方法 拓扑结构特征 时间序列特征 拓扑特征 图像特征提取
4
一种板材并行铆接任务分配与路径规划协同优化方法
协同优化方法 铆钉孔 遗传算法求解 板材 工位
5
数据驱动的高压直流输电系统电压预防控制方法及装置
系统运行状态 直流外送功率 高压直流输电系统 预防控制方法 新能源机组
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号