一种基于混合保留度的专家大模型训练方法

AITNT
正文
推荐专利
一种基于混合保留度的专家大模型训练方法
申请号:CN202510067225
申请日期:2025-01-16
公开号:CN119476451A
公开日期:2025-02-18
类型:发明专利
摘要
本发明公开了一种基于混合保留度的专家大模型训练方法,包括:在选定基础大模型的任意层后面插入混合保留度层,得到专家大模型;对混合保留度层进行设置;所述混合保留度层由M个专家组成,其中每个专家均具有预先设定的参数;在混合保留度层中引入路由模块,根据输入特征动态选择专家,通过高斯噪声向量增加路由的随机性;并通过设置策略来设置M个专家的参数值;通过任务相关的损失函数和负载均衡损失函数以训练混合保留度层,在训练过程中,混合保留度层保持可训练状态,而专家大模型的其他部分保持冻结状态。本发明设计的负载均衡损失,使得每个专家被充分训练;并且从源头保证每个专家存在差异性。
技术关键词
模型训练方法 策略 循环神经网络模型 表达式 卷积神经网络模型 模型训练装置 处理器 存储器 噪声 基础 标记 参数 可读存储介质 程序 特征值 动态 电子设备 模块 符号 尺寸
系统为您推荐了相关专利信息
1
基于层次化预定义知识学习的长时活动分析方法和系统
节点 分析方法 信息更新 样本 概念
2
基于机器学习的炎症性肠病患者心理困扰风险预测系统
炎症性肠病患者 风险预测系统 时序预测模型 电子病历信息 端口
3
一种提升配电网供电能力的台区储能配置方法、系统、设备及存储介质
配电网供电能力 储能配置方法 粒子群算法 电压 节点
4
一种二氧化碳热泵热水器的控制方法
二氧化碳热泵热水器 控制策略 压缩机转速 工况 调节排气温度
5
基于动态加密与智能风险评估的网络信息安全软件系统
动态 加密模块 椭圆曲线加密算法 网络流量监测 策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号