文本处理模型的训练方法、文本处理方法及装置

正文

推荐专利

申请号：CN202510525695

申请日期：2025-04-25

公开号：CN120067697B

公开日期：2025-07-25

类型：发明专利

摘要

本发明提供了一种文本处理模型的训练方法、文本处理方法及装置，文本处理模型包括：多个专家模块、路由模块和基座模型层，该方法包括：获取训练样本集；将训练样本集中的每个复合文本数据输入到专家模块和路由模块，得到每个复合文本数据的引导序列；将每个复合文本数据和每个复合文本数据的引导序列输入到基座模型层，得到每个复合文本数据的推理结果；基于每个复合文本数据的推理结果和复合文本数据的标注结果，确定损失函数值；基于损失函数值，更新专家模块和路由模块的模型参数。本发明提高了基座模型在复合任务上的能力，降低了模型训练对基座模型的影响。

技术关键词

文本处理模型编码结构门控结构数据序列文本处理方法上采样训练样本集多层网络结构神经网络结构计算机可执行指令基座动态训练装置参数更新模块可读存储介质处理器

文本处理模型的训练方法、文本处理方法及装置

站点导航

APP 下载