基于版面分析和查询生成的RAG知识库构建方法

AITNT
正文
推荐专利
基于版面分析和查询生成的RAG知识库构建方法
申请号:CN202411571824
申请日期:2024-11-05
公开号:CN119441507A
公开日期:2025-02-14
类型:发明专利
摘要
本申请提供基于版面分析和查询生成的RAG知识库构建方法,方法包括:接收若干查询文档;对每个查询文档,利用版面分析工具对查询文档进行版面分析;根据版面分析结果进行文本内容的分段和合并,得到多个文本段;利用大语言模型为查询文档生成标题,以及为各文本段分别生成预设数量的查询;对每个文本段,基于标题与该文本段生成第一向量,基于该文本段的预设数量查询生成第二向量;将各文本段分别与其第一向量和第二向量合并存储,以构建RAG知识库。由此,通过对查询文档进行有效的版面分析得到文本段,以及为各文本段生成查询以扩充语义,从而构建更全面的RAG知识库,可以提升系统的检索增强生成效果。
技术关键词
文本 知识库构建方法 分析工具 大语言模型 板块 存储单元 机器学习模型 分段 关键字 排序模型 提升系统 存储器 日期 程序 处理器 手册 电子设备 论文 语义 逻辑
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号