一种大语言模型高并发量推理方法及系统

AITNT
正文
推荐专利
一种大语言模型高并发量推理方法及系统
申请号:CN202510660889
申请日期:2025-05-22
公开号:CN120181245B
公开日期:2025-09-09
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了一种大语言模型高并发量推理方法及系统,利用执行器计算显存块大小分配显存空间;利用调度器转换请求序列放入调度器的等待队列;调度器为每个请求序列分配相应的显存块直至每个请求序列都能够进行下一次推理;调度器按照优先级顺序计算等待队列中请求序列的显存需求,将等待队列中的请求序列转移到运行队列中;根据请求序列的预填充类型数量和解码类型数量,分配用于执行预填充推理或用于执行解码推理的显存块数量;由此,本发明采用连续批处理、动态分配空间机制和任务调度框架,充分利用连续批处理的并行推理能力,提升了大模型推理的并发量和吞吐量,解决传统连续批处理需要预分配空间的局限性。
技术关键词
推理方法 序列 http请求 队列 调度器 解码 大语言模型 执行器 任务调度框架 推理系统 人工智能技术 定义 资源 字符 数据 机制 程序
系统为您推荐了相关专利信息
1
一种基于混合现实的股前外侧游离皮瓣手术训练方法及系统
游离皮瓣手术 条目 误差 投影模块 影像
2
基于BIM全局模拟的多施工单元施工时段排定方法及系统
标识 阶段 节点 树型结构 数据
3
一种患病数据预测方法、系统、设备及存储介质
数据预测方法 指数 时间序列模型 数据验证 地点
4
基于云制造的生产与运输协同优化的任务集分配方法
邻域 贪婪策略 因子 工件 算法
5
一种钢铁行业智能制造标准的知识图谱表示方法和表示平台
命名实体识别模型 服务端 客户端 词典 搜索算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号