注意力机制算子的优化方法、设备、存储介质及程序产品

正文

推荐专利

申请号：CN202411053482

申请日期：2024-08-01

公开号：CN118982052A

公开日期：2024-11-19

类型：发明专利

摘要

本申请实施例提供了一种注意力机制算子的优化方法、设备、存储介质及程序产品，涉及人工智能技术领域，该方法包括：在模型推理过程中，采用第一量化缩放因子对第一键表示进行在线量化获得第二键表示；以及，采用第二量化缩放因子对第一值表示进行在线量化获得第二值表示。然后将第二键表示和第一量化缩放因子保存在显存中的键信息集合中，以及，将第二值表示和第二量化缩放因子保存在显存中的值信息集合中。再基于第一查询表示、显存中的键信息集合和值信息集合进行自注意力机制计算，获取输出张量。这样，在大语言模型推理过程中，显存只需要保存量化后的键值数据，大大减少了键值缓存带来的额外显存占用，也减少注意力机制推理的显存占用。

技术关键词

注意力机制离线人工智能芯片因子线性计算机设备计算机程序产品矩阵可读存储介质人工智能技术键值存储器在线指令数据

系统为您推荐了相关专利信息

一种用于加热卷烟含水率指示标签的可视化方法

加热卷烟可视化方法指示标签线性回归方程线性回归模型

电池的高效无损析锂检测方法以及系统

析锂检测方法粒子群优化算法内阻信号处理单元变量

一种基于大数据的火电机组初压动态优化控制系统

优化控制系统风险预测模型标准化方法大数据小波变换去噪

肺动脉高压病变人工智能预测方法和装置

人工智能预测方法二分类模型静脉引入注意力机制影像

一种基于两阶段深度神经网络算法的燃烧机理简化与优化方法

深度神经网络算法深度神经网络模型两阶段训练深度神经网络遗传算法

注意力机制算子的优化方法、设备、存储介质及程序产品

站点导航

APP 下载