摘要
本申请提供基于版面分析和查询生成的RAG知识库构建方法,方法包括:接收若干查询文档;对每个查询文档,利用版面分析工具对查询文档进行版面分析;根据版面分析结果进行文本内容的分段和合并,得到多个文本段;利用大语言模型为查询文档生成标题,以及为各文本段分别生成预设数量的查询;对每个文本段,基于标题与该文本段生成第一向量,基于该文本段的预设数量查询生成第二向量;将各文本段分别与其第一向量和第二向量合并存储,以构建RAG知识库。由此,通过对查询文档进行有效的版面分析得到文本段,以及为各文本段生成查询以扩充语义,从而构建更全面的RAG知识库,可以提升系统的检索增强生成效果。
技术关键词
文本
知识库构建方法
分析工具
大语言模型
板块
存储单元
机器学习模型
分段
关键字
排序模型
提升系统
存储器
日期
程序
处理器
手册
电子设备
论文
语义
逻辑