摘要
本申请提供训练集构建、分类模型训练和文档分类方法及装置,其中所述训练集构建方法包括:获取训练集和目标语料,其中,所述训练集中的各训练语料携带有类别标签,所述目标语料未携带类别标签;将所述各训练语料和所述目标语料分别输入预训练模型,得到所述各训练语料的第一文本向量和所述目标语料的第二文本向量,其中,所述预训练模型基于所述训练集对预设自然语言模型进行预训练得到;对各所述第一文本向量与所述第二文本向量进行相似性判断;若相似性判断结果达到预设条件,则根据所述相似性判断结果,对所述目标语料添加目标类别标签,并将添加所述目标类别标签的所述目标语料加入所述训练集,得到更新的所述训练集。
技术关键词
分类模型训练方法
文档分类方法
训练集
自然语言模型
预训练模型
字符
文本
标签
预测类别
文档分类装置
计算机可执行指令
模块
处理器
语义
可读存储介质
存储器