摘要
本发明公开了一种基于混合专家的大语言模型知识编辑系统,属于自然语言处理领域。本发明结合了混合专家架构和关键词注意力路由器,实现了在保持大语言模型原有参数不变的情况下对模型知识的动态更新;本发明提出了一种单层旁路混合专家适配器,该适配器仅在模型中引入单层的额外专家,并通过关键词注意力路由器将具有相似知识需求的输入路由到相同的专家,从而使专家能够高效区分并处理不同类型的知识信息;本发明还提出了一种基于语义的数据批处理方法,通过在训练阶段对相似实例进行分组,促进专家模型的专业化,更好的符合大语言模型的知识学习偏好。本发明在多种类型和规模的模型上,以及各种编辑任务中均表现出卓越的性能,实现泛化能力与局部优化之间的平衡。
技术关键词
大语言模型
编辑系统
关键词
语义
适配器
数据批处理方法
命名实体识别技术
路由器
标记
单层
注意力机制
聚类算法
动态更新
自然语言
网络结构
旁路
决策
系统为您推荐了相关专利信息
备份方法
内容生成系统
会议纪要
差分编码器
电商
视频分类模型
视频特征提取
文本
样本
模型训练方法
知识卡片
知识库生成方法
多模态信息
信息检索
语义特征