摘要
本发明属于数据处理技术领域,具体涉及用于文档内容识别和智能段落章节拆解的方法及系统。方法包括:S1,将PDF文档拆分成页,并转换成图片;S2,对拆分后的PDF页进行DOM结构分析,获得文本字符集合;S3,对PDF页图片进行版面分析,获得版面区域集合;S4,将得到的文本字符集合和版面区域集合,聚合成字符分块;S5,对字符分块进行阅读顺序恢复操作;S6,定义标题匹配模式集合;S7,遍历分块序列的行序列,通过对比算法,得到目录之间的层级关系;S8,输出结构化的内容块结果;S9,将PDF页图片和内容块坐标进行可视化显示,用户绘制新的坐标区域,根据提供的坐标区域信息进行二次拆解。
技术关键词
分块
字符
序列
节点
图片
目录
坐标
定义
标记
关系
表格
文本行
页面
分支
二分算法
层级
容器结构
分析模块
系统为您推荐了相关专利信息
集群
分布式光伏
有功功率
电力系统潮流
调控方法
双馈风电场
优化控制模型
风电场集电系统
无功优化控制方法
长时间尺度
文化传播系统
文本生成模型
分层验证
视频特征向量
博物馆藏品