摘要
本发明公开了一种基于混合保留度的专家大模型训练方法,包括:在选定基础大模型的任意层后面插入混合保留度层,得到专家大模型;对混合保留度层进行设置;所述混合保留度层由M个专家组成,其中每个专家均具有预先设定的参数;在混合保留度层中引入路由模块,根据输入特征动态选择专家,通过高斯噪声向量增加路由的随机性;并通过设置策略来设置M个专家的参数值;通过任务相关的损失函数和负载均衡损失函数以训练混合保留度层,在训练过程中,混合保留度层保持可训练状态,而专家大模型的其他部分保持冻结状态。本发明设计的负载均衡损失,使得每个专家被充分训练;并且从源头保证每个专家存在差异性。
技术关键词
模型训练方法
策略
循环神经网络模型
表达式
卷积神经网络模型
模型训练装置
处理器
存储器
噪声
基础
标记
参数
可读存储介质
程序
特征值
动态
电子设备
模块
符号
尺寸
系统为您推荐了相关专利信息
炎症性肠病患者
风险预测系统
时序预测模型
电子病历信息
端口
配电网供电能力
储能配置方法
粒子群算法
电压
节点
二氧化碳热泵热水器
控制策略
压缩机转速
工况
调节排气温度
动态
加密模块
椭圆曲线加密算法
网络流量监测
策略