摘要
本发明公开了一种应用于边缘设备的大语言模型流水线推理架构,涉及大语言模型领域,本发明提出了一种内存高效的流水线执行机制,即PIPELOAD,针对其实际应用提出了Hermes架构由层分析器、流水线规划器和执行引擎三部分组成;层分析器是对给定的Transformer模型中的每一层进行分析,以评估其运行性能和内存使用情况;利用层分析器生成的数据,所述流水线规划器通过改变加载代理数量以生成在不同内存限制下的执行计划;在确定执行计划后,模型推理将根据边缘设备的当前的实际内存约束,在所述执行引擎中,遵从由流水线规划器生成的对应执行计划,按照该计划中的加载代理数量进行执行。本发明有效解决了流水线阻塞的问题和在边缘设备上部署大模型时内存受限的问题。
技术关键词
推理架构
流水线
内存
分析器
计划
规划
大语言模型
并行工作
机制
队列
信号
解码器
编码器
磁盘
受限
数据
阶段
系统为您推荐了相关专利信息
测试生成方法
生成测试向量
冗余
列表
芯片测试技术
分拣包装系统
并联机器
智能包装
深度神经网络
视觉
计算机扩展卡
智能分析模块
网络通信模块
决策树模型
接口模块
日志
定位策略
故障定位方法
执行点对点通信
故障定位装置