摘要
本申请实施例提供了一种注意力机制算子的优化方法、设备、存储介质及程序产品,涉及人工智能技术领域,该方法包括:在模型推理过程中,采用第一量化缩放因子对第一键表示进行在线量化获得第二键表示;以及,采用第二量化缩放因子对第一值表示进行在线量化获得第二值表示。然后将第二键表示和第一量化缩放因子保存在显存中的键信息集合中,以及,将第二值表示和第二量化缩放因子保存在显存中的值信息集合中。再基于第一查询表示、显存中的键信息集合和值信息集合进行自注意力机制计算,获取输出张量。这样,在大语言模型推理过程中,显存只需要保存量化后的键值数据,大大减少了键值缓存带来的额外显存占用,也减少注意力机制推理的显存占用。
技术关键词
注意力机制
离线
人工智能芯片
因子
线性
计算机设备
计算机程序产品
矩阵
可读存储介质
人工智能技术
键值
存储器
在线
指令
数据
系统为您推荐了相关专利信息
加热卷烟
可视化方法
指示标签
线性回归方程
线性回归模型
析锂检测方法
粒子群优化算法
内阻
信号处理单元
变量
优化控制系统
风险预测模型
标准化方法
大数据
小波变换去噪
人工智能预测方法
二分类模型
静脉
引入注意力机制
影像
深度神经网络算法
深度神经网络模型
两阶段
训练深度神经网络
遗传算法