摘要
本发明涉及文件智能处理技术领域,公开了试验报告的要素提取方法、装置、计算机设备及存储介质,该方法包括:获取多份纸质试验报告的扫描件文档,并从扫描件文档中筛选出多模态格式文档;基于光学字符识别技术模型对多模态格式文档中的文本特征、图片特征和表格特征进行识别并提取;将提取出的文本特征进行段落合并;采用多模态要素抽取模型从段落合并后的文本特征、图片特征和表格特征中抽取结构化数据,得到多模态格式文档对应的完整电子文档。本发明基于光学字符识别技术,利用数字、图像、文字识别与提取技术,对各类纸质试验报告中文字特征、图像特征和表格特征进行准确识别和提取,提高了识别和提取的准确性和提取效率。
技术关键词
表格特征
光学字符识别技术
抽取结构化数据
文本识别模型
文本分类模型
多模态
格式
图片
命名实体识别
置信度阈值
深度学习模型
链接模块
计算机设备
电子
词嵌入技术
二分类模型
定位模块
系统为您推荐了相关专利信息
钢板自动化
数据跟踪方法
跟踪相机
激光光源
数据跟踪装置
实体间关系
BERT模型
知识图谱构建方法
光学字符识别技术
条件随机场模型
动态知识图谱
仪表
数据流结构
抽取结构化数据
模糊推理
门磁传感器
智能家居控制方法
雷达感应器
门磁感应
文本识别模型