摘要
本发明公开一种基于混合量化精度键值缓存的自注意力机制计算结构,属于计算、推算或计数的技术领域。该计算结构包括:自注意力机制计算模块、输入数据量化模块、混合量化精度的键值缓存模块、n‑m反量化操作模块以及计算差‑加载差匹配模块,在键值缓存中键矩阵采用n量化精度存储,值矩阵采用m量化精度存储。利用键矩阵和值矩阵之间由于Softmax和n‑m反量化操作模块产生的计算周期差,通过计算差‑加载差匹配模块,不断微调匹配键矩阵和值矩阵之间的计算周期差和加载周期差,在n‑m量化精度方案集合中选择最匹配的混合量化精度方案,实现了自注意力机制计算精度和模型压缩的动态调节,具有功耗低,能效高,延时低的技术优势。
技术关键词
注意力机制
矩阵
键值
精度
周期
匹配模块
模型压缩
数据
因子
表达式
能效
功耗
动态
系统为您推荐了相关专利信息
振动控制方法
RBF神经网络
驱动机械臂
肌腱
轨迹
答案
大语言模型
生成方法
计算机程序产品
可读存储介质
铷原子钟
检测玻璃表面
支持向量机模型
光学检测方法
气室
跨数据中心
网络架构
能耗优化方法
能耗优化系统
电源