摘要
本发明提供了一种文本处理模型的训练方法、文本处理方法及装置,文本处理模型包括:多个专家模块、路由模块和基座模型层,该方法包括:获取训练样本集;将训练样本集中的每个复合文本数据输入到专家模块和路由模块,得到每个复合文本数据的引导序列;将每个复合文本数据和每个复合文本数据的引导序列输入到基座模型层,得到每个复合文本数据的推理结果;基于每个复合文本数据的推理结果和复合文本数据的标注结果,确定损失函数值;基于损失函数值,更新专家模块和路由模块的模型参数。本发明提高了基座模型在复合任务上的能力,降低了模型训练对基座模型的影响。
技术关键词
文本处理模型
编码结构
门控结构
数据
序列
文本处理方法
上采样
训练样本集
多层网络结构
神经网络结构
计算机可执行指令
基座
动态
训练装置
参数更新模块
可读存储介质
处理器