摘要
一种基于半监督学习和课程学习的实体关系抽取方法,给定句子S={e1,e2,...,en},实体关系联合抽取的目标是从中全面提取所有实体及其关系,从而识别出所有可能的(s,r,o)形式的三元组。基于半监督学习与课程学习的实体关系抽取方法总体框架包含五个步骤:(1)基于实体和关系重叠情况,将初始有标签数据分成不同难度的数据集合;(2)利用课程分类的数据集训练一个教师网络模型;(3)通过半监督学习策略筛选高置信度伪标签三元组;(4)将伪标签作为真实标注加入原始训练集,采用课程分类的扩展数据训练学生网络;(5)将训练好的学生网络作为新教师网络进行迭代优化;用最终构建出的性能更优的大规模实体关系抽取模型进行关系抽取。本发明的模型有效解决了实体关系抽取任务中有标签数据不足的问题。
技术关键词
实体关系抽取方法
半监督学习
监督学习策略
标签
实体关系抽取模型
教师
训练集
三元组
置信度阈值
网络
样本
学生
数据分布
框架
代表
机制