摘要
本发明公开了一种基于文本块的Md5‑hash实现增量构建知识图谱的方法和系统,其中方法包括以下步骤:S1、基于目标文档构建初始知识图谱,生成社区元数据并存储至向量数据库;S2、对目标文档进行分块处理,并对每个文本块进行MD5哈希计算,生成唯一哈希值并存储至历史哈希库;S3、对更新后的文档解析,按照指定块大小提取当前文档的所有分块集合,重新计算每个分块的哈希值,并与历史哈希库比对,过滤出已提取出实体关系并生成图谱的文本块,抽取出更新的文本块集合;S4、根据变更分块类型执行知识图谱增量更新,包括实体节点的时间戳标记、关系链路的动态维护及版本提交记录的生成。本发明可以降低维护成本,提高图谱更新效率,加快知识图谱迭代速度。
技术关键词
文本
增量更新
关系
构建知识图谱
分块
生成图谱
节点
存储介质上读取
社区发现算法
命名实体识别
删除实体
模块
计算机系统
标记
数据
可读存储介质
索引
链路