摘要
本发明涉及一种基于文档结构上下文增强的知识检索方法、系统、设备及介质,其中方法包括以下步骤:获取多源异构结构化文档并进行统一的结构解析和格式化,提取文档的元数据和层次结构信息;根据提取的文档元数据和层次结构信息,构建文档目录树和章节关联,并且将章节段落切分成知识块;根据文档目录树对知识块进行分层上下文增强,形成增强知识块;利用嵌入模型对增强知识块进行向量化,并将增强知识块及其向量化结果存储到知识库中;根据用户查询文本在知识库中进行多路多层检索,召回相关的知识块;对召回的知识块进行排序,提取最相关的知识块,得到检索结果。与现有技术相比,本发明具有提升了文档的检索效率等优点。
技术关键词
知识检索方法
层次结构信息
目录
格式化
知识检索系统
文本
光学字符识别
异构
排序模型
融合算法
分割方法
过滤模块
分层
数据
处理器
可读存储介质
关键词
存储器
电子设备
系统为您推荐了相关专利信息
电子印章结构
数据同步
共享系统
存储管理模块
信息处理模块
建筑施工数据
遗传算法
动态更新
建筑构件
资源分配
任务调度方法
机器学习算法
数据
计划
计算机程序指令
模型更新
远程更新方法
新能源场站
数值天气预报
指令