摘要
本发明提供一种大语言模型推理方法、装置、电子设备及存储介质,其中方法包括:在接收到当前请求的情况下,根据映射表查找存储空间中与已存储的各个请求对应的历史高存储效率张量,将历史高存储效率张量转换为历史目标张量;根据当前请求通过大语言模型执行当前轮推理,获取当前轮推理过程中大语言模型各层对应的中间张量,在中间张量中获取大语言模型的注意力层计算需要的当前目标张量;查找作为当前目标张量前驱的当前高存储效率张量,将当前请求以及对应的当前高存储效率张量作为历史中间数据保存至存储空间,并更新映射表;将历史目标张量和当前目标张量输入至注意力层进行计算,得到当前请求对应的推理文本,有效减少了冗余计算。
技术关键词
大语言模型
推理方法
注意力
推理系统
硬件加速器
文本
非暂态计算机可读存储介质
访问存储空间
字符
数据
电子设备
推理装置
处理器
计算机程序产品
队列
转换单元
关系
存储器
曲线
拷贝
系统为您推荐了相关专利信息
大语言模型
文本
知识图谱数据库
构建知识图谱
电子设备
智能服务终端
大语言模型
屏幕显示模块
鼾声检测
姿势识别
大语言模型
高斯分布模型
数据
计算机程序产品
阶段