摘要
本发明涉及人工智能技术领域,特别是涉及一种缓存管理方法、装置、设备、介质和产品,方法包括:实时评估不同注意力头对当前推理任务的重要性分值,并根据重要性分值,动态地为每个注意力头的键值缓存分配不同层级的存储资源,包括存储位置和数值精度,从而在保证模型输出质量,尤其是关键信息不丢失的前提下,最大化的节省内存,进而提升推理速度。
技术关键词
缓存管理方法
键值
注意力
层级
分层
模式
指令
精度
缓存管理装置
信息不丢失
可读存储介质
存储计算机程序
序列
人工智能技术
多层感知机
计算机程序产品
处理器
存储模块
矩阵
系统为您推荐了相关专利信息
注意力
对象推荐方法
兴趣特征向量
序列
预测特征
纹理特征分类
空间金字塔池
随机森林
高效多尺度
分类恶意软件
模型训练方法
音频编码器
生成数字人
音唇同步
视频
无人机
搜索方法
策略
注意力机制
贝叶斯推理方法