摘要
本发明公开了一种基于RAG的PDF智能检索与生成方法及系统,通过获取输入的文档数据,采用预先建立的分类模型对文档数据进行解析,提取文本内容和图像内容形成第一数据集;采用深度学习模型对第一数据集中的图像内容进行特征提取,同时对第一数据集中的文本内容应用自然语言处理技术进行语义分析,得到多模态特征集合;根据多模态特征集合,应用信息整合算法进行统一编码处理生成第二数据集,若检测到第二数据集中的融合特征向量的完整性低于预设阈值,则补充上下文语义分析填补缺失信息;采用预设的索引构建机制对第二数据集中的融合特征向量进行聚类处理,生成包含分类索引结构的检索索引库。本发明提高了文档检索的准确性和全面性。
技术关键词
多模态特征
数据
文本
特征提取工具
语义
生成方法
索引
深度学习模型
生成系统
分析工具
图像增强
图像分割
分词
自然语言
编码
分类工具
校验工具
识别工具
扫描工具