一种基于卸载流水线的大语言模型推理方法

AITNT
正文
推荐专利
一种基于卸载流水线的大语言模型推理方法
申请号:CN202510231932
申请日期:2025-02-28
公开号:CN120146191A
公开日期:2025-06-13
类型:发明专利
摘要
本发明公开一种基于卸载流水线的大语言模型推理方法,根据获取到大语言模型的模型结构信息和模型配置信息,以及推理设备的硬件规格信息和系统运行负载信息,通过计算得到最优卸载推理策略,之后再将最优卸载推理策略中的任务通过细粒度流水线执行调度,以输出大语言模型的卸载推理结果。本发明方法为根据输入的大语言模型信息和系统硬件环境自动配置推理任务,优化硬件资源使用和推理性能。为面向大语言模型在本地设备上的部署,针对使用固态硬盘的卸载进行传输优化,以提升数据传输速度。同时本发明还针对卸载推理进行细粒度的流水线任务调度,通过利用流水线化模型的卸载推理,就能够显著提升推理并发度以及模型吞吐量。
技术关键词
推理方法 流水线 固态硬盘 大语言模型 策略 键值 输出序列长度 低内存开销 阶段 多层感知机 高性能 任务调度 层级 框架 注意力 数据 内核 批量
系统为您推荐了相关专利信息
1
一种基于大语言模型的自动定位引入缺陷的提交的方法
大语言模型 语句 识别方法 程序 日期
2
基于改进灰狼算法的异常情绪识别方法
灰狼算法 情绪识别方法 鲶鱼效应 参数 网络
3
关系数据转化成属性图的自动化方法及装置
实体 关系 大语言模型 自动化方法 模式
4
一种基于机器视觉的LCD液晶屏缺陷检测方法及系统
视觉检测仪器 优化预测模型 背光 亮度 策略
5
一种基于区域性远程审方平台的处方审核方法及系统
处方审核方法 远程审方 复杂度 风险分析报告 任务分配策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号