摘要
本发明涉及人工智能领域,提供了一种面向RAG的文档解析方法、系统及计算机设备。面向RAG的文档解析方法包括,对获取的不同格式的文档进行统一归一化,得到所有文档的Markdown格式;提取Markdown格式的文档中的纯文本内容,对纯文本内容按照Markdown语义结构进行切分,得到若干个文本片段,对所有文本片段进行向量化;提取Markdown格式的文档中的非文本内容,将提取的非文本内容与文本片段向量进行关联,并存储在关系型数据库中;根据用户输入的查询请求,检索关系型数据库中的文本片段向量以及与文本片段向量关联的非文本内容,生成上下文片段。提升了检索精确度和生成答案的完整性。
技术关键词
文档解析方法
文本
关系型数据库
格式
语义结构
生成答案
计算机设备
表格
归一化模块
可读存储介质
解析系统
图片
处理器
层级
样式
页面
布局
列表
系统为您推荐了相关专利信息
文本处理模型
编码向量
文本处理方法
计算机可执行指令
注意力
数据封装方法
通信链路
诊断系统
数据传输格式
动态
变电站二次设备
缺陷定位方法
回路
二次设备屏柜
建筑信息模型
度检测方法
交叉注意力机制
前馈神经网络
查询特征
字幕