大语言模型推理的调度方法、装置及电子设备

正文

推荐专利

申请号：CN202511040930

申请日期：2025-07-28

公开号：CN120994368A

公开日期：2025-11-21

类型：发明专利

摘要

本发明提供一种大语言模型推理的调度方法、装置及电子设备，其中方法包括：确定大语言模型执行推理任务的多个微批次；将大语言模型中每一层的参数权重按照微批次数量划分为多个权重页；执行推理任务的各微批次，并在每一个微批次执行的同时，预取预设数量个后续微批次执行所需的权重页，并将预取的权重页存储至GPU内存。在执行各微批次时预取后续微批次权重页并存储至GPU内存，基于预取的权重页进行微批次处理过程，避免了整个大语言模型的参数权重一次性整体加载至GPU，减少因权重加载导致的计算等待时间，减少了内存占用，避免不必要的数据传输与存储，提升了基于大语言模型的任务处理效率。

技术关键词

大语言模型注意力机制内存阶段图形处理器流水线方式前馈神经网络电子设备核心调度装置中央处理器参数存储器模块

系统为您推荐了相关专利信息

一种Java Web系统的越权漏洞检测方法及系统

越权漏洞检测方法出口结构鉴权代码结构存储计算机程序

一种适应低碳需求的垃圾智能化收运系统

垃圾智能化动态路径规划智能感知模块收运系统计量模块

一种基于融合引导注意力的膝关节MRI图像分割方法

图像分割方法膝关节软骨融合特征医学图像数据库解码器

一种基于物理约束的深度学习岩石冻融损伤预测方法

损伤预测方法物理指数加权移动平均值参数生成数据集

数据挖掘方法、装置、电子设备及汽车

数据挖掘系统多模态标签数据库团队数据挖掘方法

大语言模型推理的调度方法、装置及电子设备

站点导航

APP 下载