一种大语言模型高并发量推理方法及系统

正文

推荐专利

一种大语言模型高并发量推理方法及系统

申请号：CN202510660889

申请日期：2025-05-22

公开号：CN120181245B

公开日期：2025-09-09

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了一种大语言模型高并发量推理方法及系统，利用执行器计算显存块大小分配显存空间；利用调度器转换请求序列放入调度器的等待队列；调度器为每个请求序列分配相应的显存块直至每个请求序列都能够进行下一次推理；调度器按照优先级顺序计算等待队列中请求序列的显存需求，将等待队列中的请求序列转移到运行队列中；根据请求序列的预填充类型数量和解码类型数量，分配用于执行预填充推理或用于执行解码推理的显存块数量；由此，本发明采用连续批处理、动态分配空间机制和任务调度框架，充分利用连续批处理的并行推理能力，提升了大模型推理的并发量和吞吐量，解决传统连续批处理需要预分配空间的局限性。

技术关键词

推理方法序列 http请求队列调度器解码大语言模型执行器任务调度框架推理系统人工智能技术定义资源字符数据机制程序

系统为您推荐了相关专利信息

一种基于混合现实的股前外侧游离皮瓣手术训练方法及系统

游离皮瓣手术条目误差投影模块影像

基于BIM全局模拟的多施工单元施工时段排定方法及系统

标识阶段节点树型结构数据

一种患病数据预测方法、系统、设备及存储介质

数据预测方法指数时间序列模型数据验证地点

基于云制造的生产与运输协同优化的任务集分配方法

邻域贪婪策略因子工件算法

一种钢铁行业智能制造标准的知识图谱表示方法和表示平台

命名实体识别模型服务端客户端词典搜索算法

一种大语言模型高并发量推理方法及系统

站点导航

APP 下载