一种混合专家模型路由网络优化方法、产品、装置及介质

正文

推荐专利

申请号：CN202410882266

申请日期：2024-07-03

公开号：CN118410851B

公开日期：2024-10-15

类型：发明专利

摘要

本发明公开一种混合专家模型路由网络优化方法、产品、装置及介质，涉及语言模型训练技术领域，针对混合专家模型在实际应用中的负载不均衡问题，提供一种混合专家模型路由网络优化方法。本方案可以保证各专家网络具有最基础的语言理解能力，并将数据集进行分解，根据数据特征动态选择激活的专家网络，从而针对性的选取部分样本数据对特定专家模型进行迭代训练，从根本上解决由于负载不均衡导致某些专家网络无法得到有效训练的问题，以增加训练过程的灵活性，提升模型整体的训练性能，可以更好地应用于下游任务。

技术关键词

网络优化方法数据编码非易失性存储介质位置编码信息网络优化装置模型训练技术序列存储计算机程序关系计算机程序产品注意力机制处理器线性报告英语指令

一种混合专家模型路由网络优化方法、产品、装置及介质

站点导航

APP 下载