摘要
本申请公开了基于动量机制与多类型专家的低能耗大语言模型的数据处理方法和系统,属于大语言模型技术领域,包括获取混合专家模型,混合专家模型包括门控网络、组合网络和多个专家网络;基于懒加载机制获取目标数据;通过门控网络获取目标数据对应各个专家网络的适应度得分,获取满足排序要求的专家网络为目标网络;获取目标数据在目标网络中的输出数据,并通过组合网络加权求和多个输出数据。本申请在混合专家模型中设置多个专家网络,通过对目标数据的适应度得分进行适应度排名,选取满足排名要求的专家网络的输出进行加权求和,以获得最终输出,降低浮点运算和计算内存开销,提高计算效率,减少内存资源浪费。
技术关键词
大语言模型
数据处理方法
分布式训练
节点
负载均衡机制
网络单元
非线性
数据处理系统
多层感知器
样本
矩阵
动态
因子
优化器
内存
分词
策略
系统为您推荐了相关专利信息
物品外观
灰度共生矩阵
直方图均衡化
分布式架构
多源信息融合
嵌入特征
偏好特征
文本推荐方法
实体关系提取
对象
大语言模型
序列
请求调度方法
机器学习技术
存储装置
监测分析方法
排放智能
节点
数字孪生
大数据聚类分析