摘要
本发明公开了一种大语言模型推理的动态批处理方法、装置、设备及介质。通过获取当前大语言模型对应的任务请求队列;获取用户选择动态批处理信息;根据预填充阶段任务不进行批处理或者预填充阶段任务进行批处理,对各当前请求任务分别进行预填充处理,得到各预填充阶段完成处理结果,并生成预填充阶段处理完成队列;对预填充阶段处理完成队列中的各个预填充阶段完成处理结果进行生成阶段处理操作,并将得到的生成阶段完成处理结果存入生成阶段处理完成队列中并输出。解决了静态批处理带来的内存高损耗,计算资源利用率低和高延迟、加速芯片推理效率低的问题,提高了芯片内存带宽的利用率和推理效率,减少了内存的损耗,提高了计算资源的利用率。
技术关键词
阶段
队列
大语言模型
批处理方法
动态
批处理装置
矩阵
可读存储介质
计算机
处理器
内存
芯片
策略
输出模块
存储器
损耗
电子设备
指令
系统为您推荐了相关专利信息
社交媒体情感分析方法
融合情感特征
情感类别
极性调制
融合特征
内容展示方法
设备运行数据
电子
画像
生成提示词
非规则形状
防护装备
识别方法
生成参数
输出特征
无人系统集群
调度器
节点
地面站
国产化操作系统
状态感知方法
智能除尘器
动态时间弯曲距离
分解算法
噪声强度