摘要
本发明公开了基于字符特征模版匹配提取PDF检测报告数据的方法,所述方法通过将键值对的定位信息、满足的数据类型、表格的定位通过编码的形式转成计算机能够解读的布局字符特征模板,表格字符特征模板对表格提取提供辅助作用,并通过三种方式还原不同情况下的表格。本发明特别适用于生化环材领域的包含半结构化数据的原生PDF检测报告,该方法能够提取PDF检测报告中指定的感兴趣数据,实现结构化存储,高效并准确地掌握检测物质的相关信息,且便于后续数据分析。
技术关键词
特征模板
字符
表头
报告
模版
布局
后续数据分析
文本
键值
分页表格
表体
锚点
还原算法
页面
矩形
参数
线条
还原方法
系统为您推荐了相关专利信息
临床检查数据
风险预测方法
呼吸系统
风险评估报告
多模态
远程故障诊断
云端数据处理
恢复系统
车载通信模块
历史运行状态
寿命预测方法
寿命预测模型
变压器运行状态
寿命预测系统
风险
宫颈癌患者
风险预测模型
三维重建模型
基因检测报告
蒙特卡洛树
权限控制方法
多层次
多角度
数据动态监控
客户信用风险