摘要
本说明书实施例大语言模型的键值缓存管理、模型推理和数据处理方法及装置。在处理时,为待处理模型推理请求的新增词元键值数据分配虚拟地址区间中的虚拟内存块,并且在确定调度执行模型推理请求后,维护所占用虚拟地址区间与为所述待处理模型推理请求分配的物理显存块之间的映射关系,同时将所占用虚拟地址区间的区间指示信息保存在有效虚拟地址区间表。然后,将模型推理请求的新增词元键值数据拷贝到所分配的物理显存块中。在执行模型推理时,根据有效虚拟地址区间表中的虚拟地址区间的区间指示信息确定模型推理请求所对应的物理显存块;从所确定的物理显存块中顺序取回所保存的全部序列词元键值数据;并使用序列词元键值数据执行模型推理。
技术关键词
大语言模型
缓存管理方法
键值
物理
数据处理方法
缓存管理装置
推理装置
处理器
数据处理系统
序列
关系
存储器
计算机程序产品
调度装置
分配单元
可读存储介质
拷贝
指令