基于混合路由策略的大语言模型微调方法

正文

推荐专利

基于混合路由策略的大语言模型微调方法

申请号：CN202510306540

申请日期：2025-03-14

公开号：CN120235241A

公开日期：2025-07-01

类型：发明专利

摘要

本发明属于自然语言处理技术领域，公开了一种基于混合路由策略的大语言模型微调方法，获取预训练的大语言模型；构建混合微调模块的专家模型；混合微调模块的专家模型包括预训练的大语言模型、专家网络和门控网络；专家网络包括若干由微调模块增强的专家；将训练用数据输入混合微调模块的专家模型，获取专家网络的信息熵，并基于熵的混合路由策略确定专家分配；获取混合微调模块的专家模型的总损失；依据总损失对专家网络和门控网络进行优化。本发明提出了一种新的混合路由策略，减轻了路由器的不确定性，增强了模型的稳定性，并促进了专家的公平参与，从而加速了模型的收敛速度并提高了性能。

技术关键词

微调方法网络策略系列信息熵模块令牌大语言模型自然语言路由器表达式数据标签定义速度

系统为您推荐了相关专利信息

多信息载体视角下用于密封电子元器件多余物检测的集成模型构建及检测方法

密封电子元器件多余物模型构建方法分类器信息载体声谱

一种基于参数制约的大语言模型知识融合方法及装置

知识融合方法计算机可读取存储介质融合装置计算机可读指令非线性

一种散货卸料车的路径优化方法及系统

预测运动轨迹路径优化方法序列最佳行驶路径循环神经网络算法

一种网络安全监测方法及系统

网络流量数据监测网络流量节点网络安全监测方法数据传输协议

一种营养健康分析系统

营养健康环境监测终端信息交互终端学生数据

基于混合路由策略的大语言模型微调方法

站点导航

APP 下载