摘要
本发明公开了一种大语言模型推理服务优化方法、系统、设备及介质,包括:获取当前推理请求队列;对所述当前推理请求队列中的各推理请求进行动态排序;使用SLO‑BS算法,对推理请求队列中的各推理请求进行动态批处理,得到当前批次的推理请求将所述当前批次的推理请求输入到大语言模型中,该方法、系统、设备及介质能够解决多任务并发推理时出现的显存碎片化问题,同时降低SLO违规率。
技术关键词
服务优化方法
大语言模型
队列
集群拓扑图
服务优化系统
时延
动态
节点
可读存储介质
处理器
算法
方程
计算机设备
输入模块
标记
多任务
存储器
系统为您推荐了相关专利信息
大语言模型
推理方法
注意力
推理系统
硬件加速器
数据上传方法
互联网医院
动态流量控制机制
锚点
运动补偿
图文检索方法
文本
图像特征提取
特征提取器
融合全局