摘要
本申请公开了一种基于异构推理的模型推理加速方法、装置、设备及介质,涉及人工智能技术领域,包括:将提示词输入至位于中央处理器的目标推理模型;将得到的第一令牌生成信息以及目标令牌序列输入至位于图形处理器的目标草稿模型,以便生成待确定草稿令牌生成树并进行迭代更新;基于得到的目标草稿令牌生成树生成目标草稿令牌集,并将生成树信息以及目标草稿令牌集输入至目标推理模型;基于得到的目标验证概率值对目标草稿令牌集进行验证,以确定下一轮的目标令牌序列以及第一令牌生成信息,然后跳转至输入至位于图形处理器的目标草稿模型的步骤,直至满足预设停止条件。由此,可以进一步的提高模型的推理速度以满足高效推理的需求。
技术关键词
令牌
生成树
图形处理器
序列
异构
中央处理器
输入模块
变量
键值
参数
索引
人工智能技术
加速装置
可读存储介质
电子设备
数据
精度
存储器
系统为您推荐了相关专利信息
数字化识别方法
动态视频序列
款式分类
指纹
电数字数据处理技术
模型更新方法
分块
中央处理器
图形处理器
流水线
智能交互方法
大语言模型
智能客服
自然语言
序列
人机交互检测
工作量证明
网站访问量
客户端
访问受保护