一种缓存管理方法、装置、设备、介质和产品

正文

推荐专利

申请号：CN202511517812

申请日期：2025-10-23

公开号：CN120994714A

公开日期：2025-11-21

类型：发明专利

摘要

本发明涉及人工智能技术领域，特别是涉及一种缓存管理方法、装置、设备、介质和产品，方法包括：实时评估不同注意力头对当前推理任务的重要性分值，并根据重要性分值，动态地为每个注意力头的键值缓存分配不同层级的存储资源，包括存储位置和数值精度，从而在保证模型输出质量，尤其是关键信息不丢失的前提下，最大化的节省内存，进而提升推理速度。

技术关键词

缓存管理方法键值注意力层级分层模式指令精度缓存管理装置信息不丢失可读存储介质存储计算机程序序列人工智能技术多层感知机计算机程序产品处理器存储模块矩阵

一种缓存管理方法、装置、设备、介质和产品

站点导航

APP 下载