摘要
本发明公开了小样本学习下的非结构化文本实体识别与关系抽取方法,涉及自然语言处理技术领域,包括:步骤一:对非结构化文本进行预处理,包括分词、词性标注和句法分析,将文本转换为结构化的词向量表示;采用预训练语言模型对文本进行编码,获取文本的上下文语义特征;步骤二:基于文本的上下文语义特征,利用元学习算法构建元学习模型,通过少量的标注样本和大量的未标注样本进行训练,学习不同任务之间的共性知识;步骤三:基于元学习模型,对文本中的词向量进行处理,识别实体,包括边界和类型;依据识别出的实体,分析实体之间的语义关系,抽取实体之间的关系类型,采用动态规划方法,优化实体与关系之间的依赖关系。
技术关键词
文本实体识别
关系抽取方法
语义特征
样本
预训练语言模型
动态规划方法
元学习算法
统计学习模型
原型
依存句法分析
关系分类器
词语
注意力
编码器
时序结构