摘要
本发明属于PDF解析技术领域,提供了一种解析pdf中段落对齐方法、装置及介质。本发明利用Apache的开源框架PDFBOX,对PDF文件进行读取,然后对文字进行排序、转换排版,确定好段落,标题,页眉页脚等信息,基于段落内容进行行级拆分,并设置容错空间对行级内容进行分析判断,由此确定段落对齐,从而能够保持转换后的文档的准确对齐,并具有高质量、易编辑的特点。
技术关键词
对齐方法
坐标
开源框架
对齐装置
Y轴
页面宽度
排版
解析技术
存储计算机程序
数据
存储器
排序算法
处理器
可读存储介质
列表
字体
编辑
内存