一种大语言模型推理服务优化方法、系统、设备及介质

正文

推荐专利

申请号：CN202510351147

申请日期：2025-03-24

公开号：CN119862966A

公开日期：2025-04-22

类型：发明专利

摘要

本发明公开了一种大语言模型推理服务优化方法、系统、设备及介质，包括：获取当前推理请求队列；对所述当前推理请求队列中的各推理请求进行动态排序；使用SLO‑BS算法，对推理请求队列中的各推理请求进行动态批处理，得到当前批次的推理请求将所述当前批次的推理请求输入到大语言模型中，该方法、系统、设备及介质能够解决多任务并发推理时出现的显存碎片化问题，同时降低SLO违规率。

技术关键词

服务优化方法大语言模型队列集群拓扑图服务优化系统时延动态节点可读存储介质处理器算法方程计算机设备输入模块标记多任务存储器

系统为您推荐了相关专利信息

一种大语言模型推理方法、装置、电子设备及存储介质

大语言模型推理方法注意力推理系统硬件加速器

一种互联网医院监管数据上传方法及系统

数据上传方法互联网医院动态流量控制机制锚点运动补偿

医疗文档切片及检索方法、装置、设备及存储介质

关键词检索方法节点切片语义

一种基于自适应局部知识填充的遥感图文检索方法

图文检索方法文本图像特征提取特征提取器融合全局

迭代生成式多模态思维链推理方法、装置、电子设备及存储介质

大语言模型推理方法文本图像生成图文

一种大语言模型推理服务优化方法、系统、设备及介质

站点导航

APP 下载