摘要
本发明公开了一种基于改进的大语言模型推理运行框架的数据处理方法。通过获取待处理的数据,并对改进的大语言模型推理运行框架对应的目标大语言模型进行加载处理;改进的大语言模型推理运行框架进行数据处理包括一次预填充阶段和多次生成阶段;在预填充阶段中,对待处理的数据进行预填充数据处理操作,得到预填充阶段处理完成数据;在生成阶段中,对预填充阶段处理完成数据中的所有的激活张量数据和键值缓存数据分别进行生成阶段处理,得到生成阶段处理完成数据。解决了由于内存亲和性以及数据形状对硬件不友好的原因进而导致整体推理性能的下降、存储器之间负载不均匀的问题,实现了大语言模型下存储器的负载均衡,提高了模型的推理性能。
技术关键词
键值
拷贝
阶段
分布式存储方法
大语言模型
分布式存储器
缓存行数据
矩阵
数据处理方法
切块
数据重排方法
切片方法
分块
框架
数据存储
可读存储介质
数据处理装置
多层感知机
系统为您推荐了相关专利信息
磨煤机
煤质在线检测方法
入炉煤
基准
煤质在线检测系统
树形结构数据
接口配置方法
节点
键值
广度优先遍历
入侵检测方法
入侵检测模型
深度特征提取
编码器
XGBoost模型