摘要
本申请公开了一种基于大模型推理的异步调度系统、方法、设备及介质,涉及大模型推理优化技术领域,该方法包括:CPU接收第t轮的推理请求,执行推理任务调度,得到第t轮的推理数据对象,传输给GPU从GPU中获取第t轮的推理请求的推理词元,判断第t轮的推理请求的推理词元是否包含数值信息,如果包含,则根据该推理词元对第t轮的推理请求进行更新,得到第t轮的推理结果;将第t轮的推理结果传输给终端;并准备第t+1轮的推理任务调度;GPU在CPU进行判断时,从CPU中获取第t轮的推理数据对象,基于第t轮的推理数据对象进行推理,得到第t+1轮的推理请求的推理词元。该方法能够在保持大模型推理精度的同时,实现CPU调度和GPU推理并行执行,节约资源。
技术关键词
任务调度
对象
数据
调度系统
队列
GPU并行处理
异步调度方法
数值
状态更新
进程
消息
信息更新
终端
可读存储介质
计算机
资源
精度
系统为您推荐了相关专利信息
长短期记忆网络
语义特征
重传方法
分类网络
分类器
相控阵天线阵列
高增益
RFID标签
波束
3dB电桥
RGB灯
矩阵
计算机可读指令
计数器
环境光传感器
融合协同过滤算法
智能语音外呼系统
画像模型
识别用户出行场景
时序预测模型