基于混合路由策略的大语言模型微调方法

AITNT
正文
推荐专利
基于混合路由策略的大语言模型微调方法
申请号:CN202510306540
申请日期:2025-03-14
公开号:CN120235241A
公开日期:2025-07-01
类型:发明专利
摘要
本发明属于自然语言处理技术领域,公开了一种基于混合路由策略的大语言模型微调方法,获取预训练的大语言模型;构建混合微调模块的专家模型;混合微调模块的专家模型包括预训练的大语言模型、专家网络和门控网络;专家网络包括若干由微调模块增强的专家;将训练用数据输入混合微调模块的专家模型,获取专家网络的信息熵,并基于熵的混合路由策略确定专家分配;获取混合微调模块的专家模型的总损失;依据总损失对专家网络和门控网络进行优化。本发明提出了一种新的混合路由策略,减轻了路由器的不确定性,增强了模型的稳定性,并促进了专家的公平参与,从而加速了模型的收敛速度并提高了性能。
技术关键词
微调方法 网络 策略 系列 信息熵 模块 令牌 大语言模型 自然语言 路由器 表达式 数据 标签 定义 速度
系统为您推荐了相关专利信息
1
多信息载体视角下用于密封电子元器件多余物检测的集成模型构建及检测方法
密封电子元器件多余物 模型构建方法 分类器 信息载体 声谱
2
一种基于参数制约的大语言模型知识融合方法及装置
知识融合方法 计算机可读取存储介质 融合装置 计算机可读指令 非线性
3
一种散货卸料车的路径优化方法及系统
预测运动轨迹 路径优化方法 序列 最佳行驶路径 循环神经网络算法
4
一种网络安全监测方法及系统
网络流量数据 监测网络流量 节点 网络安全监测方法 数据传输协议
5
一种营养健康分析系统
营养健康 环境监测终端 信息交互终端 学生 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号