一种PDF图纸识别及信息结构化提取的方法

正文

推荐专利

申请号：CN202510759594

申请日期：2025-06-09

公开号：CN120932263A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了一种PDF图纸识别及信息结构化提取的方法，通过图像预处理生成高分辨率位图；基于迁移学习的目标检测模型对图纸中的文本区域、表格区域及符号区域进行定位与分类；采用霍夫变换结合SIFT特征匹配识别工程符号，并通过RANSAC算法实现亚像素定位；仿射变换矫正倾斜文本后经OCR提取内容；基于OPTICS聚类与投影分析重构表格结构；依据坐标关联规则构建RDF知识图谱；利用U‑Net差异检测定位遗漏区域并补全。本发明融合深度学习与图像处理技术，解决传统方法中旋转文本识别率低、表格结构丢失及语义关联缺失问题，通过轻量化模型压缩与TensorRT加速，解析准确率显著优于传统方法，可广泛应用于建筑工程、石油化工等领域，提升图纸信息处理效率与数据完整性。

技术关键词

知识图谱构建图纸表格密度聚类算法符号语义分割模型倾斜文本 RDF知识图谱误匹配点剔除模型压缩 RANSAC算法融合深度学习迁移学习技术多模态生成高分辨率损失函数优化像素坐标直方图均衡化

系统为您推荐了相关专利信息

一种多机跑合测试异常工况识别方法及系统

工况识别方法 LSTM模型相位补偿方法频域特征统计特征

一种BERTopic-SBERT混合驱动的重复缺陷报告检测方法

报告样本重复缺陷语义数据特征提取

孤独症多源异构大数据的知识图谱的构建方法

多源异构大数据三元组多源异构数据源实体电子病历系统

一种基于知识图谱的网络安全风险评估方法、设备及介质

网络安全数据网络安全知识图谱网络安全事件分词生成知识图谱

基于多源异构数据融合的监理知识图谱动态建模方法

多源异构数据融合动态建模方法合规性知识图谱构建技术覆盖率

一种PDF图纸识别及信息结构化提取的方法

站点导航

APP 下载