摘要
本发明涉及一种基于人在回路的多源异质文档多模态数据抽取的方法,包括:步骤S1:对原始PDF文件进行预处理;步骤S2:整理并清洗步骤S1中获得的PDF文件元数据;步骤S3:对解析得到的文本数据进行清洗和整理;步骤S4:对解析得到的表格数据进行清洗和整理;步骤S5:对解析得到的图片数据进行清洗和整理;步骤S6:将步骤S3中处理后的文本数据输入模型进行微调;步骤S7:将步骤S4中处理后的表格数据输入模型进行微调;步骤S8:设计表格结构识别算法还原表格结构;步骤S9:将步骤S5中处理后的图片数据输入模型进行微调,本发明通过引入“人在回路”的机制,确保自动数据抽取的精度和鲁棒性,从而实现快速高效的目标数据收集,提升数据库构建效率。
技术关键词
表格
图片
多模态
异质
文本
清洗规则
回路
命名实体识别
对象检测
信息抽取模型
识别算法
训练集
数据存储系统
分类器训练
像素
关键词
检测错误
系统为您推荐了相关专利信息
交互系统
交通大数据
LSTM模型
LED显示
透明显示模块
动态剪枝
网络拓扑特征
网络安全事件
历史监测数据
编码模块
分布式架构
融合特征
管理系统
声学传感器
模型更新