摘要
本发明涉及人工智能技术领域,公开了一种大语言模型高并发量推理方法及系统,利用执行器计算显存块大小分配显存空间;利用调度器转换请求序列放入调度器的等待队列;调度器为每个请求序列分配相应的显存块直至每个请求序列都能够进行下一次推理;调度器按照优先级顺序计算等待队列中请求序列的显存需求,将等待队列中的请求序列转移到运行队列中;根据请求序列的预填充类型数量和解码类型数量,分配用于执行预填充推理或用于执行解码推理的显存块数量;由此,本发明采用连续批处理、动态分配空间机制和任务调度框架,充分利用连续批处理的并行推理能力,提升了大模型推理的并发量和吞吐量,解决传统连续批处理需要预分配空间的局限性。
技术关键词
推理方法
序列
http请求
队列
调度器
解码
大语言模型
执行器
任务调度框架
推理系统
人工智能技术
定义
资源
字符
数据
机制
程序