摘要
本发明公开了一种铁路地质文件复杂图像及表格的自动识别与提取方法,首先通过设计一个分类方法自动识别出需要提取的文档属于图片还是表格的类型,其次根据识别出的结果分别采用不同的识别技术进行自动化的数据提取,具体的对于图片类型的数据采用一种基于深度学习的OCR技术得到图像中的文本描述,对于表格类似的数据,首先识别出表格的框线,再采用表格图像识别的方法对表格的内容进行识别并提取。这些语料经过数据清洗、格式化处理,构建成规范的数据格式。构建完成的方法不仅能够高效识别和提取铁路地质文件中的文本信息,还能对表格数据进行准确的解析和结构化处理。
技术关键词
铁路
表格图像识别
文字特征
序列
图像提取模块
文本
分类方法
数据格式
识别模块
格式化
网络
图片
物体
代表
直线
框架
图象
系统为您推荐了相关专利信息
轨道探伤设备
移动机器人
铁路轨道
探伤方法
双机器人
趋势分析方法
像素点
反射率数据
反射率差异
执行光谱分析