一种PDF文档信息自动化提取方法及系统

AITNT
正文
推荐专利
一种PDF文档信息自动化提取方法及系统
申请号:CN202510055952
申请日期:2025-01-14
公开号:CN120014661A
公开日期:2025-05-16
类型:发明专利
摘要
本发明公开了一种PDF文档信息自动化提取方法,对PDF文档进行预处理操作,形成微调训练模型所需的数据集;然后,利用预训练的布局感知深度学习模型,结合数据集信息进行模型微调和训练;最后,利用训练好的模型处理包括文本、布局和图像的多模态信息,进行分类文本并提取出关键信息段落。本发明通过结合文本与布局信息,显著提升了信息提取的精度和效率,避免了OCR技术的局限性,具有高度的自动化、广泛的适应性和扩展性,尤其适用于专业文档的关键信息提取,提供了更加高效、准确的解决方案。
技术关键词
自动化提取方法 自动化提取系统 数据处理模块 计算机可读指令 深度学习模型 布局 页面文本信息 图像 生成数据集 输入模块 输出模块 页面尺寸 可读存储介质 文本段落 预训练模型 标注工具 文本行
系统为您推荐了相关专利信息
1
基于医学影像的全脊柱形态学模型建立与应用方法及装置
医学影像数据 矫正需求 三维形态学 矫正模型 资源分配策略
2
数据处理方法、装置、电子设备及存储介质
异常对象 数据处理方法 社区发现算法 电子设备 可读存储介质
3
基于斜率变化率的动力电池安全预警方法和系统
统计特征 预警模型 车辆 矩阵 预警方法
4
基于流体大模型的电网设施内涝灾害智能预测方法及装置
智能预测方法 一维水动力模型 二维水动力模型 训练样本集 智能预测装置
5
智能化图片质量的检测系统及方法
图片 深度学习模型 存储模块 机器学习模型 数据传输协议
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号