一种存算分离场景下大语言模型GPT-2拉远训练方法

正文

推荐专利

申请号：CN202511317506

申请日期：2025-09-16

公开号：CN120806176B

公开日期：2025-11-14

类型：发明专利

摘要

本发明提供了一种存算分离场景下大语言模型GPT‑2拉远训练方法，属于人工智能和云计算技术领域。该方法包括：客户端与服务端建立通信连接；客户端对数据进行序列化，经过序列化的数据通过网络传输发送至服务端；服务端主进程创建数据接收线程用于数据接收和发送反馈，服务端接收到的数据被存入共享队列；建立服务端多进程分布式并行训练模型，各进程从共享队列中取数据用于模型训练，数据接收线程在训练的同时可以接收数据，实现训练和接收并行执行；持续进行数据传输和训练任务，直到完成指定的训练轮次或满足终止条件。本发明通过存算分离场景实现大语言模型训练和数据接收并行执行，提高训练效率，提升模型性能。

技术关键词

服务端建立通信客户端进程队列注意力场景拓扑结构信息滑动窗口机制字节流更新模型参数分布式训练显卡设备台式主机大语言模型端口多层感知机传送数据分词

系统为您推荐了相关专利信息

一种控制器仿真系统构建方法、装置、设备及介质

虚拟操作系统仿真模型模拟器根端口仿真系统

基于区块链节点的通信安全管理方法及装置

通信安全管理通信网络身份验证公钥加密算法消息认证码

基于软硬协同设计的全闪阵列

条带垃圾阵列阶段 SSD控制器

跳绳计数方法、装置、电子设备及通信系统

跳绳计数方法跳绳计数装置震动传感器通信系统数据

声光设备的保电控制方法、装置、设备、存储介质及产品

场馆声光数据处理模块进程语义特征

一种存算分离场景下大语言模型GPT-2拉远训练方法

站点导航

APP 下载