摘要
本发明提供一种大语言模型推理的调度方法、装置及电子设备,其中方法包括:确定大语言模型执行推理任务的多个微批次;将大语言模型中每一层的参数权重按照微批次数量划分为多个权重页;执行推理任务的各微批次,并在每一个微批次执行的同时,预取预设数量个后续微批次执行所需的权重页,并将预取的权重页存储至GPU内存。在执行各微批次时预取后续微批次权重页并存储至GPU内存,基于预取的权重页进行微批次处理过程,避免了整个大语言模型的参数权重一次性整体加载至GPU,减少因权重加载导致的计算等待时间,减少了内存占用,避免不必要的数据传输与存储,提升了基于大语言模型的任务处理效率。
技术关键词
大语言模型
注意力机制
内存
阶段
图形处理器
流水线方式
前馈神经网络
电子设备
核心
调度装置
中央处理器
参数
存储器
模块
系统为您推荐了相关专利信息
越权漏洞检测方法
出口结构
鉴权
代码结构
存储计算机程序
垃圾智能化
动态路径规划
智能感知模块
收运系统
计量模块
图像分割方法
膝关节软骨
融合特征
医学图像数据库
解码器
损伤预测方法
物理
指数加权移动平均值
参数
生成数据集
数据挖掘系统
多模态
标签数据库
团队
数据挖掘方法