摘要
本申请提供一种键值缓存数据的调度方法、大模型推理方法及装置,涉及人工智能技术领域。该方法包括:利用预测模型预测大模型推理后续token所需的目标键值缓存数据;后续token是指大模型还未推理的token;判断是否需要对所述目标键值缓存数据进行调度;若需要调度,则生成调度策略;根据调度策略从第一存储空间获取目标键值缓存数据,并将目标键值缓存数据存储至第二存储空间;其中,目标键值缓存数据用于使大模型推理后续token。本申请减少对第一存储空间的频繁访问,并且,每次只传输需要的目标键值缓存数据,而非全量的键值缓存数据,减少了因传输键值缓存数据导致的带宽资源的占用。
技术关键词
键值
推理方法
计算机程序指令
策略
强化学习算法
推理装置
图形处理器
异步方式
人工智能技术
计算机程序产品
调度装置
中央处理器
模块
存储器
高带宽
系统为您推荐了相关专利信息
神经发育障碍
小鼠模型
生物模型技术
复合物
神经系统
模态特征
语义关键词
局部特征信息
词嵌入向量
算法模型
键值
车载系统
虚拟化系统
分区
Android系统
气浮平台
运动模拟器
姿态角速度
飞轮
追踪控制方法