一种基于人在回路的多源异质文档多模态数据抽取的方法

AITNT
正文
推荐专利
一种基于人在回路的多源异质文档多模态数据抽取的方法
申请号:CN202511128993
申请日期:2025-08-13
公开号:CN120996042A
公开日期:2025-11-21
类型:发明专利
摘要
本发明涉及一种基于人在回路的多源异质文档多模态数据抽取的方法,包括:步骤S1:对原始PDF文件进行预处理;步骤S2:整理并清洗步骤S1中获得的PDF文件元数据;步骤S3:对解析得到的文本数据进行清洗和整理;步骤S4:对解析得到的表格数据进行清洗和整理;步骤S5:对解析得到的图片数据进行清洗和整理;步骤S6:将步骤S3中处理后的文本数据输入模型进行微调;步骤S7:将步骤S4中处理后的表格数据输入模型进行微调;步骤S8:设计表格结构识别算法还原表格结构;步骤S9:将步骤S5中处理后的图片数据输入模型进行微调,本发明通过引入“人在回路”的机制,确保自动数据抽取的精度和鲁棒性,从而实现快速高效的目标数据收集,提升数据库构建效率。
技术关键词
表格 图片 多模态 异质 文本 清洗规则 回路 命名实体识别 对象检测 信息抽取模型 识别算法 训练集 数据存储系统 分类器训练 像素 关键词 检测错误
系统为您推荐了相关专利信息
1
一种基于跨模态知识图谱的陪护机器人决策方法、装置、设备及介质
陪护机器人 多模态传感器 跨模态 语义向量 图谱
2
一种基于AI与车路协同的汽车智能后窗交互系统及方法
交互系统 交通大数据 LSTM模型 LED显示 透明显示模块
3
一种网络安全事件识别模型部署方法及系统
动态剪枝 网络拓扑特征 网络安全事件 历史监测数据 编码模块
4
图像分割方法、装置、电子设备及可读存储介质
文本 注意力 编码特征 解码模块 编码模块
5
一种基于分布式架构的磁-惯性约束聚变阵列信号采集与管理系统
分布式架构 融合特征 管理系统 声学传感器 模型更新
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号