一种基于混合保留度的专家大模型训练方法

正文

推荐专利

一种基于混合保留度的专家大模型训练方法

申请号：CN202510067225

申请日期：2025-01-16

公开号：CN119476451A

公开日期：2025-02-18

类型：发明专利

摘要

本发明公开了一种基于混合保留度的专家大模型训练方法，包括：在选定基础大模型的任意层后面插入混合保留度层，得到专家大模型；对混合保留度层进行设置；所述混合保留度层由M个专家组成，其中每个专家均具有预先设定的参数；在混合保留度层中引入路由模块，根据输入特征动态选择专家，通过高斯噪声向量增加路由的随机性；并通过设置策略来设置M个专家的参数值；通过任务相关的损失函数和负载均衡损失函数以训练混合保留度层，在训练过程中，混合保留度层保持可训练状态，而专家大模型的其他部分保持冻结状态。本发明设计的负载均衡损失，使得每个专家被充分训练；并且从源头保证每个专家存在差异性。

技术关键词

模型训练方法策略循环神经网络模型表达式卷积神经网络模型模型训练装置处理器存储器噪声基础标记参数可读存储介质程序特征值动态电子设备模块符号尺寸

系统为您推荐了相关专利信息

基于层次化预定义知识学习的长时活动分析方法和系统

节点分析方法信息更新样本概念

基于机器学习的炎症性肠病患者心理困扰风险预测系统

炎症性肠病患者风险预测系统时序预测模型电子病历信息端口

一种提升配电网供电能力的台区储能配置方法、系统、设备及存储介质

配电网供电能力储能配置方法粒子群算法电压节点

一种二氧化碳热泵热水器的控制方法

二氧化碳热泵热水器控制策略压缩机转速工况调节排气温度

基于动态加密与智能风险评估的网络信息安全软件系统

动态加密模块椭圆曲线加密算法网络流量监测策略

一种基于混合保留度的专家大模型训练方法

站点导航

APP 下载