摘要
本申请公开了一种信息抽取方法、装置、电子设备和存储介质,包括:获取目标网页的超文本标记语言HTML数据,并提取出HTML数据中的非结构化数据;对非结构化数据进行自然语言处理,构建知识图谱,其中,知识图谱中的节点表示非结构化数据中的实体;基于图卷积网络对知识图谱进行知识推理,确定实体间的隐含关系,并基于隐含关系对知识图谱进行优化,得到目标网页的信息抽取结果。通过自动化流程获取并处理目标网页的HTML数据,能够大幅提升信息抽取的效率,有效应对海量数据的挑战,而且,基于自然语言处理和图卷积网络进行知识图谱构建与推理,不仅实现了处理过程的标准化,确保了结果的一致性,减少了主观判断的影响,还提升了信息抽取的准确性。
技术关键词
信息抽取方法
构建知识图谱
网页元素
超文本标记语言
自然语言
关系
数据存储单元
表格
文档对象模型
语义
知识图谱构建
命名实体识别
可读存储介质
网络
节点
抽取装置
处理器
系统为您推荐了相关专利信息
数据分类
数据管理方法
数据处理系统
关键词
量子密钥分发技术
角色扮演方法
语义向量
实体
自然语言
计算机终端设备
加速系统
语义理解模型
多尺度
命名实体识别
匹配模块