摘要
本申请公开了一种基于多级缓存的大模型推理方法及装置、存储介质、设备,该方法包括:接收推理任务,对推理任务进行固定长度的词元序列分割处理,以确定推理任务对应的至少一个词元序列,其中,词元序列中除末尾词元序列之外的其他词元序列的长度为固定长度,末尾词元序列的长度小于或等于固定长度;针对固定长度的词元序列,在显存中查询词元序列对应的目标数据块,若显存中不存在,则在内存中查询词元序列对应的目标数据块,其中,显存中的数据块被逐出显存时被拷贝内存中;若末尾词元序列小于固定长度,则通过大模型,根据目标数据块和末尾词元序列执行推理任务;若末尾词元序列等于固定长度,则通过大模型,根据目标数据块执行推理任务。
技术关键词
序列
内存
拷贝
生成数据块
推理方法
标识
热点
节点
键值
推理装置
处理器
计算机设备
集群
列表
模块
机制
系统为您推荐了相关专利信息
光伏发电预测方法
模态分解方法
重构矩阵
状态空间模型
光伏功率预测技术
资源优化配置方法
资源分配策略
云计算环境
云端
生成资源