摘要
本公开提供一种用于大语言模型的推理方法、装置、设备和介质,属于人工智能技术领域。该方法包括:利用CPU和GPU协同完成多次迭代,每次迭代包括:第一任务,用于在CPU确定未完成的多个序列及其最后生成的词元标识;第二任务,用于在CPU基于多个序列最后生成的词元标识确定模型输入;第三任务,用于在GPU计算多个序列的待生成的下一词元的概率分布;第四任务,用于在GPU进行采样,以得到下一词元的标识;以及第五任务,用于在CPU基于下一词元的标识,更新多个序列的完成状态,其中,第n+1次迭代和第n次迭代异步执行,第n+1次迭代的第一任务和第二任务与第n次迭代的第三任务并行执行,第n+1次迭代的第三任务和第n次迭代的第五任务并行执行。
技术关键词
序列
标识
大语言模型
进程
推理方法
处理单元
索引
解码
处理器
推理装置
人工智能技术
计算机程序产品
模运算
计算机设备
数据
可读存储介质
存储器
系统为您推荐了相关专利信息
参数优化模型
车辆控制单元
验证平台
数字孪生
车辆控制方法
BERT模型
样本
序列
计算机可执行指令
sigmoid函数
标识方法
指示标志
智能导视系统
定位系统
数据可视化显示
大尺寸器件
参数预测方法
小尺寸器件
半导体器件
神经网络模型