摘要
本发明公开了一种PDF图纸识别及信息结构化提取的方法,通过图像预处理生成高分辨率位图;基于迁移学习的目标检测模型对图纸中的文本区域、表格区域及符号区域进行定位与分类;采用霍夫变换结合SIFT特征匹配识别工程符号,并通过RANSAC算法实现亚像素定位;仿射变换矫正倾斜文本后经OCR提取内容;基于OPTICS聚类与投影分析重构表格结构;依据坐标关联规则构建RDF知识图谱;利用U‑Net差异检测定位遗漏区域并补全。本发明融合深度学习与图像处理技术,解决传统方法中旋转文本识别率低、表格结构丢失及语义关联缺失问题,通过轻量化模型压缩与TensorRT加速,解析准确率显著优于传统方法,可广泛应用于建筑工程、石油化工等领域,提升图纸信息处理效率与数据完整性。
技术关键词
知识图谱构建
图纸
表格
密度聚类算法
符号
语义分割模型
倾斜文本
RDF知识图谱
误匹配点剔除
模型压缩
RANSAC算法
融合深度学习
迁移学习技术
多模态
生成高分辨率
损失函数优化
像素
坐标
直方图均衡化
系统为您推荐了相关专利信息
工况识别方法
LSTM模型
相位补偿方法
频域特征
统计特征
多源异构大数据
三元组
多源异构数据源
实体
电子病历系统
网络安全数据
网络安全知识图谱
网络安全事件
分词
生成知识图谱
多源异构数据融合
动态建模方法
合规性
知识图谱构建技术
覆盖率