摘要
本发明公开了一种运营商领域的RAG文档拆分优化方法及系统,属于大模型优化技术领域,该方法的实现包括:上传文档,通过minio和paradeDB分别存储源文件和文件信息;构建文档加载器,根据文件类型自动选择对应的加载器进行文件处理,转化为统一的markdown文本,解析文档中的图片并转化为base64格式;构建图片处理器,将文本中的图片base64字符串提取出来,进行位图和矢量图的处理,转化为markdown的图片引用格式;构建文档分割器;向量转化;文本召回。本发明解决目前RAG中,图片提取转化、处理复杂的问题,一个数据库即可实现向量检索、全文检索、混合检索功能,减少了运维成本。
技术关键词
图片
文本
加载器
矢量图
命令行工具
表格
格式
机器可读程序
分割器
模型优化技术
生成文件名
字符串替换
处理器
计算机
模块
列表
字典
存储桶
文件夹
存储器
系统为您推荐了相关专利信息
训练数据获取方法
人声
语音识别训练
语音识别方法
语音识别模型
快递面单
信息识别方法
数字特征信息
快递盒
条形码特征
网络识别方法
样本
数据
神经网络模型
概率密度函数