一种基于改进的大语言模型推理运行框架的数据处理方法

正文

推荐专利

申请号：CN202411496228

申请日期：2024-10-25

公开号：CN119002831B

公开日期：2025-01-28

类型：发明专利

摘要

本发明公开了一种基于改进的大语言模型推理运行框架的数据处理方法。通过获取待处理的数据，并对改进的大语言模型推理运行框架对应的目标大语言模型进行加载处理；改进的大语言模型推理运行框架进行数据处理包括一次预填充阶段和多次生成阶段；在预填充阶段中，对待处理的数据进行预填充数据处理操作，得到预填充阶段处理完成数据；在生成阶段中，对预填充阶段处理完成数据中的所有的激活张量数据和键值缓存数据分别进行生成阶段处理，得到生成阶段处理完成数据。解决了由于内存亲和性以及数据形状对硬件不友好的原因进而导致整体推理性能的下降、存储器之间负载不均匀的问题，实现了大语言模型下存储器的负载均衡，提高了模型的推理性能。

技术关键词

键值拷贝阶段分布式存储方法大语言模型分布式存储器缓存行数据矩阵数据处理方法切块数据重排方法切片方法分块框架数据存储可读存储介质数据处理装置多层感知机

系统为您推荐了相关专利信息

一种入炉煤煤质在线检测方法及系统

磨煤机煤质在线检测方法入炉煤基准煤质在线检测系统

一种前端web接口配置方法、装置、系统以及存储介质

树形结构数据接口配置方法节点键值广度优先遍历

一种大语言模型的提示词压缩方法、设备及介质

大语言模型节点信息熵语句生成提示词

基于神经网络的轧制规程自适应计算方法及系统

轧制规程计算方法引入注意力机制数据阶段

一种基于CAE-XGBoost的编码文件入侵检测方法和系统

入侵检测方法入侵检测模型深度特征提取编码器 XGBoost模型

一种基于改进的大语言模型推理运行框架的数据处理方法

站点导航

APP 下载