摘要
本申请公开了一种基于迁移学习的专利标签信息生成方法及系统,方法包括任务配置、模型设计、语料构建、模型训练、执行预测五个步骤,任务配置选择专利预测任务,以全部专利文本为基础,按照IPC分类体系中的技术领域进行划分,根据专利数据选择合适的源域和目标域;模型设计根据任务配置信息分别设计特征编码模型和预测模型;语料构建,分别准备源域和目标域上的训练语料数据;模型训练针对选定的源域和目标域,使用相应的训练语料数据进行模型训练;执行预测,应用模型训练后的模型接口,对目标域上的无标签专利进行预测,生成预测标签信息并存储。本方法在保证现有模型准确率的情况下,有效减少了大量标注数据的经济成本和时间成本。
技术关键词
分类预测模型
IPC分类体系
标签信息生成方法
特征编码模型
协方差矩阵
编码器
设计特征
嵌入特征
基准
数据
模型训练模块
原型
正则化参数
代表
文本
信息生成系统
分类号
BERT模型