摘要
本发明公开了一种大模型增强的半开放知识抽取方法和系统,能够精准地筛选高质量且与关注问题相关的语料,并实现高效且准确的知识抽取。包括:首先,基于给定的种子实体检索包含这些种子实体的相关语料;接着,基于知识抽取的目的和关注的问题,计算检索到的语料和关注点之间的关联程度,筛选出关联度高的语料作为知识抽取的源语料;随后,利用大模型从源语料中抽取将种子实体作为头实体的三元组;再利用大模型判断抽取出来的三元组的置信度,筛选出置信度超过阈值的三元组;进一步检查所得三元组的语法、词性等,筛选出符合规范的三元组;最后,通过实体、关系标准化对齐、同义词提取融合等技术,实现知识的去重和规范化,得到最终需要的三元组。
技术关键词
开放知识抽取
三元组
实体
种子
关注点
识别同义词
预训练语言模型
关键字
关系
对齐模块
处理器
存储器
可读存储介质
程序
电子设备
文本
格式
计算机
系统为您推荐了相关专利信息
投标文件生成方法
大语言模型
模板
命名实体识别技术
非暂态计算机可读存储介质