摘要
本发明公开一种混合专家模型路由网络优化方法、产品、装置及介质,涉及语言模型训练技术领域,针对混合专家模型在实际应用中的负载不均衡问题,提供一种混合专家模型路由网络优化方法。本方案可以保证各专家网络具有最基础的语言理解能力,并将数据集进行分解,根据数据特征动态选择激活的专家网络,从而针对性的选取部分样本数据对特定专家模型进行迭代训练,从根本上解决由于负载不均衡导致某些专家网络无法得到有效训练的问题,以增加训练过程的灵活性,提升模型整体的训练性能,可以更好地应用于下游任务。
技术关键词
网络优化方法
数据编码
非易失性存储介质
位置编码信息
网络优化装置
模型训练技术
序列
存储计算机程序
关系
计算机程序产品
注意力机制
处理器
线性
报告
英语
指令