一种大语言模型推理服务优化方法、系统、设备及介质

AITNT
正文
推荐专利
一种大语言模型推理服务优化方法、系统、设备及介质
申请号:CN202510351147
申请日期:2025-03-24
公开号:CN119862966A
公开日期:2025-04-22
类型:发明专利
摘要
本发明公开了一种大语言模型推理服务优化方法、系统、设备及介质,包括:获取当前推理请求队列;对所述当前推理请求队列中的各推理请求进行动态排序;使用SLO‑BS算法,对推理请求队列中的各推理请求进行动态批处理,得到当前批次的推理请求将所述当前批次的推理请求输入到大语言模型中,该方法、系统、设备及介质能够解决多任务并发推理时出现的显存碎片化问题,同时降低SLO违规率。
技术关键词
服务优化方法 大语言模型 队列 集群拓扑图 服务优化系统 时延 动态 节点 可读存储介质 处理器 算法 方程 计算机设备 输入模块 标记 多任务 存储器
系统为您推荐了相关专利信息
1
一种大语言模型推理方法、装置、电子设备及存储介质
大语言模型 推理方法 注意力 推理系统 硬件加速器
2
一种互联网医院监管数据上传方法及系统
数据上传方法 互联网医院 动态流量控制机制 锚点 运动补偿
3
医疗文档切片及检索方法、装置、设备及存储介质
关键词 检索方法 节点 切片 语义
4
一种基于自适应局部知识填充的遥感图文检索方法
图文检索方法 文本 图像特征提取 特征提取器 融合全局
5
迭代生成式多模态思维链推理方法、装置、电子设备及存储介质
大语言模型 推理方法 文本 图像 生成图文
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号