摘要
本申请公开一种推理方法、系统、计算机设备及存储介质。所述方法应用于包括中央处理单元CPU、图形处理单元GPU和现场可编程门阵列FPGA的目标系统,包括以下步骤:响应于目标推理服务的请求,CPU将目标推理服务的目标输入传到GPU;GPU基于大语言模型的网络结构和权重参数对目标输入进行预填充阶段的计算,得到包括预填充阶段的中间计算结果和最终计算结果的第一数据,并将其传到CPU;CPU将第一数据传到FPGA;FPGA基于大语言模型的网络结构、权重参数和第一数据进行解码阶段的计算,得到第二数据将其传到CPU;CPU将第二数据作为目标推理服务的输出。本申请能够将目标推理服务分阶段部署到GPU和FPGA,通过协作运行的方式完成目标推理服务,充分利用GPU和FPGA的硬件资源。
技术关键词
推理方法
大语言模型
网络结构
现场可编程门阵列
解码器
图形处理单元
数据
样本
计算机设备
接口
任务调度
参数
关系
推理系统
可读存储介质
处理器
分阶段
系统为您推荐了相关专利信息
驾驶员意图
驾驶员交互
融合场景
智能座舱
深度学习模型
大语言模型
意图类别
意图识别
问答检索方法
数据
RBF神经网络
模糊神经网络
隶属度函数
模糊逻辑理论
训练样本数据
深度学习算法
检验方法
YOLO模型
样本
网络结构