摘要
本发明涉及自然语言处理技术领域,公开了一种基于知识注入和图神经网络的开放域文本信息抽取方法,包括对输入文本数据提取所有名词性短语构建候选实体集合;将候选实体两两组合,构建每个实体对的自注意力关联矩阵;对自注意力关联矩阵进行序列采样,生成候选三元组序列集合;对候选三元组序列与输入文本数据计算语义相似度,输出前k个高关联三元组序列作为输入文本数据的初始信息抽取结果;基于图神经网络对初始信息抽取结果进行依存结构分析,通过冗余序列标注生成三元组序列,作为最终信息抽取结果。本发明显著提升了开放域信息抽取任务中复杂句法结构三元组的识别率,同时有效降低了抽取结果的冗余度。
技术关键词
文本信息抽取方法
三元组
序列
预训练语言模型
实体
语义向量
自然语言
文本数据提取
句法结构
神经网络模型
编码
注意力机制
冗余度
策略
系统为您推荐了相关专利信息
液压设备
数字孪生驱动
数据交互系统
数字孪生模型
设备运行状态