摘要
本发明涉及芯片设计技术领域,特别是涉及基于MOE场景的数据均衡分配方法、电子设备及存储介质。根据所述混合专家模型MOE中的专家总数量G、每次迭代处理的训练文本的数据序列长度U和处理每个词元的专家分配数量Q计算每个专家处平均分配词元的平均数据量avg,根据所述avg获取每个专家分配词元的上限阈值th0。获取每个专家分配词元的实际数据量M,根据M和th0制定的调整策略将每个专家分配的目标词元的数据量调整为th0,解决了计算和通信不均衡的问题。
技术关键词
均衡分配方法
通用图形处理单元
策略
神经处理单元
芯片设计技术
数据
电子设备
文本
中央处理器
场景
序列
可读存储介质
列表
程序
分词
指令
计算机
系统为您推荐了相关专利信息
资源管理方法
服务器
信息加密保护
资源信息监测方法
数据
燃料组件
构建机器学习模型
卷积神经网络算法
深度预测方法
机器学习模型训练
动态关联模型
变频压缩机
电机运行参数
柔性薄膜热电偶
滑动窗口算法