摘要
本申请公开了一种大语言模型推理优化方法、装置、设备及存储介质,涉及机器学习技术领域,包括:对初始大语言模型进行结构化剪枝,以获取待调整大语言模型;其中,待调整大语言模型为预训练的模型,且在模型训练阶段已完成模型量化;获取目标待推理数据,判断目标待推理数据是否小于预设长度阈值,若目标待推理数据不小于预设长度阈值,则将目标待推理数据切分为目标长度的数据片段;获取目标待推理数据的特征信息,根据特征信息自动对待调整大语言模型中的初始上下文窗口进行调整,以获取相应的目标大语言模型,并利用目标大语言模型对数据片段进行推理。通过对模型进行量化处理,且对数据进行分片,提高了模型推理的效率与可扩展性。
技术关键词
大语言模型
数据
任务分配策略
推理服务器
负载均衡算法
机器学习技术
模型剪枝
优化装置
会话
精度
阶段
可读存储介质
处理器
节点
电子设备
分片
模块
模式
存储器
系统为您推荐了相关专利信息
有机电致发光器件
制冷联合系统
模拟模型
命令
电气元件
多元线性回归模型
主动设计方法
点胶
封装系统
评估优化方法
节点
入侵检测系统
网络安全方法
高斯混合模型
基线
图像编码算法
电压监测数据
仿真模型
样本
识别方法