一种基于多类型文档的抽取与检索方法

正文

推荐专利

一种基于多类型文档的抽取与检索方法

申请号：CN202510311984

申请日期：2025-03-17

公开号：CN120429314A

公开日期：2025-08-05

类型：发明专利

摘要

本发明涉及一种基于多类型文档的抽取与检索方法，包括以下步骤：获取数万篇金融文本资料，对版面进行人工标注，接着将标注结果给到模型进行训练；对于非图片类和图片类的文档分别采用iText技术和OCR技术来识别对应位置范围内的文字；将文本中包含的非结构化数据转化为结构化表达；采用HNSW算法，在海量的向量数据中实现分层、高效的数据检索；通过结合上文中的语义向量检索和传统的关键词匹配，能够较好的实现最相关文本的检索；最后采用RRF算法，获取最相关的待检索文本；基于结构化数据，通过上下文关联出相同段落的文本作为最终的结果返回。解决了现有文档检索技术在处理金融文档的实时性和准确性上存在不足的问题，显著提高文档检索的准确性和效率。

技术关键词

检索方法文本实体识别技术金融文档检索技术语义向量识别工具深度学习模型内容分类图片算法目录语法结构关键词数据树形结构动态更新自然语言层级

一种基于多类型文档的抽取与检索方法

站点导航

APP 下载