摘要
本发明涉及大语言模型技术领域,具体是涉及一种混合专家模型的训练方法、装置、设备及介质。本发明每次迭代过程中,本地节点会产生用于激活远程节点群上的子网络的原始激活值,本发明压缩原始激活值,得到压缩激活值,之后本地节点将压缩激活值发送至远程节点群。每次迭代之后,本地节点生成模型原始梯度并压缩该梯度,以得到压缩梯度,再把压缩梯度发送至远程节点群,远程节点群基于压缩激活值和压缩梯度继续迭代训练混合专家模型。本发明在本地节点和远程节点群之间通信的是压缩梯度和压缩激活值,而不是模型原始梯度和原始激活值,压缩梯度和压缩激活值相对模型原始梯度和原始激活值减少了通信的数量,从而提高了混合专家模型的训练速度。
技术关键词
节点
数据格式
可读存储介质
终端设备
大语言模型
处理器
训练装置
程序
元素
网络
文本
存储器
计算机
因子
模块
机制
速度
系统为您推荐了相关专利信息
斗轮机
数字孪生模型
控制策略
状态空间模型
拉格朗日方程
协同方法
层级
元数据管理模块
事件触发模块
标签
网络环路检测方法
队列
节点
电子设计自动化技术
Tarjan算法
电力变压器故障
卷积网络模型
归一化方法
电力设备故障诊断技术
网络结构