摘要
本申请提供一种PDF无线表格信息提取方法、系统、介质及电子设备。所述PDF无线表格信息提取方法包括:获取目标PDF文件;对所述目标PDF文件进行判定以获取PDF文件类型,所述PDF文件类型包括文本文件和图像文件;对所述文本文件进行复现以获取文本表格内容;对所述图像文件进行优化处理以获取优化图像;利用大语言模型对所述文本表格内容进行提取以获取结构化表格文本信息;利用视觉大模型对所述优化图像进行提取以获取结构化表格图像信息;将所述结构化表格文本信息和所述结构化表格图像信息进行整合处理以获取结构化信息。根据本申请的PDF无线表格信息提取方法能够提高PDF无线表格信息中电子数据提取的精度和准确度。
技术关键词
表格信息提取方法
大语言模型
图像
信息提取系统
视觉
电子设备
文本信息提取
模块
校正
数据
可读存储介质
决策
存储器
表头
格式
计算机
处理器
系统为您推荐了相关专利信息
日志数据分析方法
多任务
存储数据类型
日志解析
适配器
耳部
无监督学习
过滤单元
图片
深度卷积神经网络