基于图像分割和OCR的PDF文本提取方法

正文

推荐专利

申请号：CN202510496178

申请日期：2025-04-21

公开号：CN120496081A

公开日期：2025-08-15

类型：发明专利

摘要

本发明公开了基于图像分割和OCR的PDF文本提取方法，属于图像处理技术领域，包括以下步骤：S1、将待解析的PDF文件进行图像化处理；S2、构建分栏判定模型，通过分栏判定模型判断图像化处理后的PDF文件是否存在分栏；S3、构建图像分割模型，对存在分栏的PDF文件进行分割，分割结果按照坐标，顺序调用OCR算法接口进行文本信息提取并按顺序拼接；S4、基于文本坐标进行页眉页脚过滤；S5、最后进行正则表达式过滤和表格信息过滤，得到文本数据。本发明能够处理各类格式的PDF文件，尤其适用于存在分栏情况的PDF文件，识别准确率高，具有良好的适用性。

技术关键词

文本提取方法图像分割模型文本信息提取坐标图片图像处理技术标注工具数据标签表格页面训练集算法接口参数格式像素

系统为您推荐了相关专利信息

一种预制混凝土构件智能预装配对齐方法及系统

混凝土构件截面特征混凝土柱偏差钢筋

一种使用自制标准棒标定激光对刀仪的方法

激光对刀仪坐标系机床主轴激光束硬质合金棒

基于实时AGV仓储机器人模型动态化的搬运任务协调方法

仓储机器人重物仓储模型形态规划

亚分辨率辅助图形的成像验证方法及成像验证装置

亚分辨率辅助图形验证方法成像光刻胶验证装置

一种标记牌字符生成方法及系统

字符生成方法标记牌字符识别矫正图像

基于图像分割和OCR的PDF文本提取方法

站点导航

APP 下载