摘要
本发明提供了一种存算分离场景下大语言模型GPT‑2拉远训练方法,属于人工智能和云计算技术领域。该方法包括:客户端与服务端建立通信连接;客户端对数据进行序列化,经过序列化的数据通过网络传输发送至服务端;服务端主进程创建数据接收线程用于数据接收和发送反馈,服务端接收到的数据被存入共享队列;建立服务端多进程分布式并行训练模型,各进程从共享队列中取数据用于模型训练,数据接收线程在训练的同时可以接收数据,实现训练和接收并行执行;持续进行数据传输和训练任务,直到完成指定的训练轮次或满足终止条件。本发明通过存算分离场景实现大语言模型训练和数据接收并行执行,提高训练效率,提升模型性能。
技术关键词
服务端
建立通信
客户端
进程
队列
注意力
场景
拓扑结构信息
滑动窗口机制
字节流
更新模型参数
分布式训练
显卡设备
台式主机
大语言模型
端口
多层感知机
传送数据
分词
系统为您推荐了相关专利信息
通信安全管理
通信网络
身份验证
公钥加密算法
消息认证码
跳绳计数方法
跳绳计数装置
震动传感器
通信系统
数据