基于图像分割和OCR的PDF文本提取方法

AITNT
正文
推荐专利
基于图像分割和OCR的PDF文本提取方法
申请号:CN202510496178
申请日期:2025-04-21
公开号:CN120496081A
公开日期:2025-08-15
类型:发明专利
摘要
本发明公开了基于图像分割和OCR的PDF文本提取方法,属于图像处理技术领域,包括以下步骤:S1、将待解析的PDF文件进行图像化处理;S2、构建分栏判定模型,通过分栏判定模型判断图像化处理后的PDF文件是否存在分栏;S3、构建图像分割模型,对存在分栏的PDF文件进行分割,分割结果按照坐标,顺序调用OCR算法接口进行文本信息提取并按顺序拼接;S4、基于文本坐标进行页眉页脚过滤;S5、最后进行正则表达式过滤和表格信息过滤,得到文本数据。本发明能够处理各类格式的PDF文件,尤其适用于存在分栏情况的PDF文件,识别准确率高,具有良好的适用性。
技术关键词
文本提取方法 图像分割模型 文本信息提取 坐标 图片 图像处理技术 标注工具 数据 标签 表格 页面 训练集 算法 接口 参数 格式 像素
系统为您推荐了相关专利信息
1
一种预制混凝土构件智能预装配对齐方法及系统
混凝土构件 截面特征 混凝土柱 偏差 钢筋
2
一种使用自制标准棒标定激光对刀仪的方法
激光对刀仪 坐标系 机床主轴 激光束 硬质合金棒
3
基于实时AGV仓储机器人模型动态化的搬运任务协调方法
仓储机器人 重物 仓储模型 形态 规划
4
亚分辨率辅助图形的成像验证方法及成像验证装置
亚分辨率辅助图形 验证方法 成像 光刻胶 验证装置
5
一种标记牌字符生成方法及系统
字符生成方法 标记牌 字符识别 矫正 图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号