摘要
本发明提出一种基于任务感知与生成长度预测的计算卡群调度方法和装置,包括:将具有用户提示词的多个推理请求发送至计算卡群,将每个推理请求封装为请求对象,计算卡群具有多个智能计算卡,所有智能计算卡的显存构成共享显存池;将请求对象加入用户请求池中;采用预测器模块对用户请求池中请求对象的用户提示词进行生成长度预测,得到预测生成长度;为用户请求池中每个请求对象创建对应推理任务和元数据,根据预测生成长度,从共享显存池中按需申请显存块,得到具有显存分配地址与大小的显存块句柄并写入元数据;根据推理任务的元数据和各个计算卡的运行状态,生成任务调度序列;按顺序从任务调度序列中选取推理任务。
技术关键词
任务调度
调度装置
问答语料库
信息显示设备
对象
令牌桶算法
BERT模型
人工智能模型
数据
序列
计算机程序产品
模块
电子设备
可读存储介质
标签
处理器
速率
参数
系统为您推荐了相关专利信息
图像生成模型
锥形束CT图像
噪声样本
自然语言
多模态信息
智能搬运机器人
建筑材料
堆场
可执行程序代码
语音
储能互补
优化调度方法
火力发电机组
萤火虫优化算法
火电