一种PDF文档信息自动化提取方法及系统

正文

推荐专利

一种PDF文档信息自动化提取方法及系统

申请号：CN202510055952

申请日期：2025-01-14

公开号：CN120014661A

公开日期：2025-05-16

类型：发明专利

摘要

本发明公开了一种PDF文档信息自动化提取方法，对PDF文档进行预处理操作，形成微调训练模型所需的数据集；然后，利用预训练的布局感知深度学习模型，结合数据集信息进行模型微调和训练；最后，利用训练好的模型处理包括文本、布局和图像的多模态信息，进行分类文本并提取出关键信息段落。本发明通过结合文本与布局信息，显著提升了信息提取的精度和效率，避免了OCR技术的局限性，具有高度的自动化、广泛的适应性和扩展性，尤其适用于专业文档的关键信息提取，提供了更加高效、准确的解决方案。

技术关键词

自动化提取方法自动化提取系统数据处理模块计算机可读指令深度学习模型布局页面文本信息图像生成数据集输入模块输出模块页面尺寸可读存储介质文本段落预训练模型标注工具文本行

系统为您推荐了相关专利信息

基于医学影像的全脊柱形态学模型建立与应用方法及装置

医学影像数据矫正需求三维形态学矫正模型资源分配策略

数据处理方法、装置、电子设备及存储介质

异常对象数据处理方法社区发现算法电子设备可读存储介质

基于斜率变化率的动力电池安全预警方法和系统

统计特征预警模型车辆矩阵预警方法

基于流体大模型的电网设施内涝灾害智能预测方法及装置

智能预测方法一维水动力模型二维水动力模型训练样本集智能预测装置

智能化图片质量的检测系统及方法

图片深度学习模型存储模块机器学习模型数据传输协议

一种PDF文档信息自动化提取方法及系统

站点导航

APP 下载