用于文档内容识别和智能段落章节拆解的方法及系统

正文

推荐专利

申请号：CN202510142591

申请日期：2025-02-10

公开号：CN119598974B

公开日期：2025-04-22

类型：发明专利

摘要

本发明属于数据处理技术领域，具体涉及用于文档内容识别和智能段落章节拆解的方法及系统。方法包括：S1，将PDF文档拆分成页，并转换成图片；S2，对拆分后的PDF页进行DOM结构分析，获得文本字符集合；S3，对PDF页图片进行版面分析，获得版面区域集合；S4，将得到的文本字符集合和版面区域集合，聚合成字符分块；S5，对字符分块进行阅读顺序恢复操作；S6，定义标题匹配模式集合；S7，遍历分块序列的行序列，通过对比算法，得到目录之间的层级关系；S8，输出结构化的内容块结果；S9，将PDF页图片和内容块坐标进行可视化显示，用户绘制新的坐标区域，根据提供的坐标区域信息进行二次拆解。

技术关键词

分块字符序列节点图片目录坐标定义标记关系表格文本行页面分支二分算法层级容器结构分析模块

系统为您推荐了相关专利信息

配电网分布式光伏调控方法、装置、终端设备及存储介质

集群分布式光伏有功功率电力系统潮流调控方法

基于双馈风电场的双时间尺度无功优化控制方法及系统

双馈风电场优化控制模型风电场集电系统无功优化控制方法长时间尺度

时序任务的决策生成方法、装置、设备及介质

决策生成方法时序特征多模态记忆推理网络

一种基于AIGC的博物馆文化传播系统

文化传播系统文本生成模型分层验证视频特征向量博物馆藏品

一种蛋白质-配体结合位点与亲和力预测方法及系统

复合型编码器节点特征亲和力混合块配体

用于文档内容识别和智能段落章节拆解的方法及系统

站点导航

APP 下载