摘要
一种基于CPU计算注意力分数的方法、介质、设备和程序产品,所述方法包括:获取用于输入大语言模型的用户查询;检索与所述用户查询相关的信息,并从存储介质中获取所述信息对应的键值;所述存储介质为区别于GPU显存,所述键值为基于大语言模型预先计算的键值;CPU基于所述键值进行注意力计算,得到注意力分数,并将所述注意力分数发送至GPU,以使所述GPU将所述注意力分数用于生成针对所述用户查询的响应信息。
技术关键词
注意力
键值
大语言模型
位置编码信息
处理器
计算机程序产品
计算机设备
可读存储介质
存储器
资源