摘要
本申请公开了一种基于异构推理的模型推理加速方法、装置、设备及介质,涉及人工智能技术领域,包括:将提示词输入至位于中央处理器的目标推理模型;将得到的第一令牌生成信息以及目标令牌序列输入至位于图形处理器的目标草稿模型,以便生成待确定草稿令牌生成树并进行迭代更新;基于得到的目标草稿令牌生成树生成目标草稿令牌集,并将生成树信息以及目标草稿令牌集输入至目标推理模型;基于得到的目标验证概率值对目标草稿令牌集进行验证,以确定下一轮的目标令牌序列以及第一令牌生成信息,然后跳转至输入至位于图形处理器的目标草稿模型的步骤,直至满足预设停止条件。由此,可以进一步的提高模型的推理速度以满足高效推理的需求。
技术关键词
令牌
生成树
图形处理器
序列
异构
中央处理器
输入模块
变量
键值
参数
索引
人工智能技术
加速装置
可读存储介质
电子设备
数据
精度
存储器
系统为您推荐了相关专利信息
分布式渲染方法
分块算法
深度图
边缘轮廓
图像块
节点特征
活动分类方法
异构
代表
多头注意力机制