摘要
本发明公开一种大模型的内存管理方法及装置、电子设备、可读存储介质,方法包括将数据输入到训练后的文本长度预估模型,估计大模型输出文本长度并对长度进行向上调整成整数,根据内存页大小和kv cache维度计算cache分块数量,并将cache分块数量向上调整成整数;最后为大模型解码分配kv cache内存块。本发明通过提前分配足够的显存或内存,有效避免动态调整带来的延迟;在批量推理场景中,能够合理的规划计算资源,提高吞吐量;在流式输出场景中,在逐词生成的场景下,本发明预估输出长度可以优化用户体验,如进度条显示或提前截断处理。
技术关键词
内存管理方法
文本
前馈神经网络
解码器结构
电子设备
内存管理装置
注意力
可读存储介质
优化用户体验
分块策略
数据获取模块
程序
进度条
场景
存储装置
流水线
处理器