摘要
本发明提供了一种基于伪标签及交叉验证的小样本实体识别方法,包括:基于改进型的K折交叉验证算法对已标注数据进行处理,获得训练集以及测试集对基线模型UIE进行训练以及验证获得微调模型;基于预设规则在未标注数据中进行随机批量选取并进行处理后,获得被选取伪数据;基于被选取伪数据以及已标注数据,使用半监督算法和改进型的K折交叉验证算法对基线模型UIE进行训练获得最终模型;基于最终模型对输入文本进行处理,获得实体识别结果。采用未标注数据小样本数据对模型进行训练的目的同时采用改进型的K折交叉验证算法实现了在一个模型上进行微调,提高小样本实体识别模型的泛化能力以及指标性能,完成了小样本情况下实体的精准识别。
技术关键词
实体识别方法
半监督算法
验证算法
文本
基线
关键字
模型训练模块
关键词
批量
样本
训练集
实体识别系统
数据标签
实体识别模型
半监督训练
滑动窗口
系统为您推荐了相关专利信息
音频特征
情感分析方法
情感分析模型
多模态特征
特征提取网络
决策优化方法
语义
构建知识图谱
节点
多模态特征