大语言模型推理的调度方法、装置及电子设备

AITNT
正文
推荐专利
大语言模型推理的调度方法、装置及电子设备
申请号:CN202511040930
申请日期:2025-07-28
公开号:CN120994368A
公开日期:2025-11-21
类型:发明专利
摘要
本发明提供一种大语言模型推理的调度方法、装置及电子设备,其中方法包括:确定大语言模型执行推理任务的多个微批次;将大语言模型中每一层的参数权重按照微批次数量划分为多个权重页;执行推理任务的各微批次,并在每一个微批次执行的同时,预取预设数量个后续微批次执行所需的权重页,并将预取的权重页存储至GPU内存。在执行各微批次时预取后续微批次权重页并存储至GPU内存,基于预取的权重页进行微批次处理过程,避免了整个大语言模型的参数权重一次性整体加载至GPU,减少因权重加载导致的计算等待时间,减少了内存占用,避免不必要的数据传输与存储,提升了基于大语言模型的任务处理效率。
技术关键词
大语言模型 注意力机制 内存 阶段 图形处理器 流水线方式 前馈神经网络 电子设备 核心 调度装置 中央处理器 参数 存储器 模块
系统为您推荐了相关专利信息
1
一种Java Web系统的越权漏洞检测方法及系统
越权漏洞检测方法 出口结构 鉴权 代码结构 存储计算机程序
2
一种适应低碳需求的垃圾智能化收运系统
垃圾智能化 动态路径规划 智能感知模块 收运系统 计量模块
3
一种基于融合引导注意力的膝关节MRI图像分割方法
图像分割方法 膝关节软骨 融合特征 医学图像数据库 解码器
4
一种基于物理约束的深度学习岩石冻融损伤预测方法
损伤预测方法 物理 指数加权移动平均值 参数 生成数据集
5
数据挖掘方法、装置、电子设备及汽车
数据挖掘系统 多模态 标签数据库 团队 数据挖掘方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号