混合专家模型的训练方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510004762

申请日期：2025-01-02

公开号：CN119962604A

公开日期：2025-05-09

类型：发明专利

摘要

本发明提供一种混合专家模型的训练方法、装置、电子设备及存储介质，属于大语言模型技术领域，通过将前馈神经网络转换为多个专家单元，提高了第一预设混合专家模型的推理效率和部署灵活性。通过多领域训练样本训练多个输出概率至相同，使得第二预设混合专家模型能够快速收敛。通过多领域训练样本对输出概率进行再次训练，进一步优化了门控层的性能。通过单领域训练样本对第三预设混合专家模型进行训练，使混合专家模型在特定领域达到最佳性能。本发明通过将前馈神经网络转换为多个专家单元，然后对门控层进行三个不同层次的训练，不仅提高了混合专家模型的训练效率，还提高了混合专家模型在特定领域中的数据处理精度和鲁棒性。

技术关键词

前馈神经网络大语言模型非暂态计算机可读存储介质误差答案标签电子设备样本文本处理器参数训练装置数据模块存储器鲁棒性精度

系统为您推荐了相关专利信息

一种面向自动驾驶的图像重建方法及相关设备

图像重建方法像素点三维点云模型编码器解码器

一种基于多智能体强化学习的交通信号灯协同控制方法及相关装置

交通信号灯协同控制方法多智能体强化学习大语言模型规划

一种多变量融合的电力负荷预测方法及系统

电力负荷预测方法谐波畸变率负荷预测模型频段数据屏蔽

一种基于FLNN神经网络带有ESO力矩补偿的最优控制方法及系统

控制力矩动态机器人系统误差状态观测器机械臂

一种桥梁支座不锈钢板智能激光熔覆系统及方法

激光熔覆系统激光熔覆头桥梁支座不锈钢板送丝机构

混合专家模型的训练方法、装置、电子设备及存储介质

站点导航

APP 下载