摘要
本发明公开了基于图像分割和OCR的PDF文本提取方法,属于图像处理技术领域,包括以下步骤:S1、将待解析的PDF文件进行图像化处理;S2、构建分栏判定模型,通过分栏判定模型判断图像化处理后的PDF文件是否存在分栏;S3、构建图像分割模型,对存在分栏的PDF文件进行分割,分割结果按照坐标,顺序调用OCR算法接口进行文本信息提取并按顺序拼接;S4、基于文本坐标进行页眉页脚过滤;S5、最后进行正则表达式过滤和表格信息过滤,得到文本数据。本发明能够处理各类格式的PDF文件,尤其适用于存在分栏情况的PDF文件,识别准确率高,具有良好的适用性。
技术关键词
文本提取方法
图像分割模型
文本信息提取
坐标
图片
图像处理技术
标注工具
数据
标签
表格
页面
训练集
算法
接口
参数
格式
像素
系统为您推荐了相关专利信息
亚分辨率辅助图形
验证方法
成像
光刻胶
验证装置