摘要
本申请提供一种轨道交通领域的RAG数据解析方法、装置、设备、介质,该方法,包括:获取文档;若文档的格式非pdf格式,则将其转换为pdf格式;对pdf格式的文档进行版面分析,识别表格区域和文本区域;对于表格区域形成表格元素的html字符串;对于文本区域提取文本内容;将html字符串和文本内容转换为结构化的元数据,并存储于RAG的向量数据库中。本方法先将文档的格式统一为pdf格式,为数据解析提供统一的输入源,避免格式差异对解析结果的影响。再对文档的pdf格式进行版面分析,识别表格区域和文本区域,进而针对表格区域和文本区域分别提取元数据,实现了信息的完整、准确提取,提升了文档在实际工作中的应用价值。
技术关键词
表格
数据解析方法
格式
坐标
元素
中文文本
数据解析装置
文本检测模型
文本识别模型
处理器
识别模块
存储模块
可读存储介质
存储器
电子设备
列表
系统为您推荐了相关专利信息
水润滑导轴承
仿真计算方法
固体
轴瓦材料
三维模型
数据分析方法
AI算法
NLP技术
数据建模方法
地质数据分析技术