一种混合专家模型的训练方法、装置、设备及介质

AITNT
正文
推荐专利
一种混合专家模型的训练方法、装置、设备及介质
申请号:CN202511433405
申请日期:2025-10-09
公开号:CN120911554A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及大语言模型技术领域,具体是涉及一种混合专家模型的训练方法、装置、设备及介质。本发明每次迭代过程中,本地节点会产生用于激活远程节点群上的子网络的原始激活值,本发明压缩原始激活值,得到压缩激活值,之后本地节点将压缩激活值发送至远程节点群。每次迭代之后,本地节点生成模型原始梯度并压缩该梯度,以得到压缩梯度,再把压缩梯度发送至远程节点群,远程节点群基于压缩激活值和压缩梯度继续迭代训练混合专家模型。本发明在本地节点和远程节点群之间通信的是压缩梯度和压缩激活值,而不是模型原始梯度和原始激活值,压缩梯度和压缩激活值相对模型原始梯度和原始激活值减少了通信的数量,从而提高了混合专家模型的训练速度。
技术关键词
节点 数据格式 可读存储介质 终端设备 大语言模型 处理器 训练装置 程序 元素 网络 文本 存储器 计算机 因子 模块 机制 速度
系统为您推荐了相关专利信息
1
斗轮机控制方法、装置、介质、电子设备及程序产品
斗轮机 数字孪生模型 控制策略 状态空间模型 拉格朗日方程
2
处理设备及其数据处理方法、训练图卷积网络模型的方法
节点 数据处理方法 卷积网络模型 校正 缓冲器
3
一种结合活动参与模型的协同方法和系统
协同方法 层级 元数据管理模块 事件触发模块 标签
4
基于深度遍历的网络环路检测方法、电子设备及存储介质
网络环路检测方法 队列 节点 电子设计自动化技术 Tarjan算法
5
一种基于改进图卷积网络的电力变压器故障诊断方法
电力变压器故障 卷积网络模型 归一化方法 电力设备故障诊断技术 网络结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号