摘要
本申请涉及大语言模型技术领域,特别涉及一种混合专家语言模型优化方法、装置、设备、介质及产品,其中,方法包括:获取混合专家语言模型的下游任务训练集;根据下游任务训练集进化搜索混合专家语言模型中专家模型的需要保留数量和需要激活数量;根据需要保留数量和需要激活数量的至少一个优化混合专家语言模型,其中,根据需要保留数量降低专家模型的总数量,根据需要激活数量降低专家模型的激活数量。由此,解决了相关技术中对于混合专家语言模型的优化,导致优化后的混合专家语言模型的性能受限等问题。
技术关键词
语言模型优化方法
训练集
矩阵
大语言模型
计算机程序产品
搜索模块
优化装置
处理器
指令
可读存储介质
存储器
元素
阶段
电子设备
受限
网络
系统为您推荐了相关专利信息
实景三维建模方法
融合多模态特征
倾斜摄影模型
语义标签
地面
报告生成方法
报告生成系统
大语言模型
电力行业数据
模板
弱光图像增强方法
神经网络框架
模块
神经网络模型
设计特征