大模型的内存管理方法及装置、电子设备、可读存储介质

正文

推荐专利

申请号：CN202510821422

申请日期：2025-06-19

公开号：CN120353603B

公开日期：2025-09-09

类型：发明专利

摘要

本发明公开一种大模型的内存管理方法及装置、电子设备、可读存储介质，方法包括将数据输入到训练后的文本长度预估模型，估计大模型输出文本长度并对长度进行向上调整成整数，根据内存页大小和kv cache维度计算cache分块数量，并将cache分块数量向上调整成整数；最后为大模型解码分配kv cache内存块。本发明通过提前分配足够的显存或内存，有效避免动态调整带来的延迟；在批量推理场景中，能够合理的规划计算资源，提高吞吐量；在流式输出场景中，在逐词生成的场景下，本发明预估输出长度可以优化用户体验，如进度条显示或提前截断处理。

技术关键词

内存管理方法文本前馈神经网络解码器结构电子设备内存管理装置注意力可读存储介质优化用户体验分块策略数据获取模块程序进度条场景存储装置流水线处理器

大模型的内存管理方法及装置、电子设备、可读存储介质

站点导航

APP 下载