摘要
本发明公开了一种文档信息抽取方法、装置和系统及存储介质,涉及深度学习领域,包括:输入原始文档进行预处理,得到文档图像;采用Vision Transformer(ViT)对文档图像进行OCR识别,得到文本信息和与文本信息对应的文本框坐标信息;基于深度学习的yolov8‑seg实例分割算法,确定每个版面元素框的类别和坐标信息,再将版面元素框坐标信息与文本框坐标信息进行版面区域匹配,得到每个版面元素框对应的文本信息;将每个版面元素框的类别和对应的文本信息作为版面区域匹配结果,结合待抽取的文档信息形成Prompt模板,作为大模型的输入并进行微调训练,微调训练完成后,模型可根据输入正确抽取文档信息。该方法结合了OCR的文字识别、版面分析的布局解析和大模型的语言理解能力,能够从复杂多样的文档中精准提取关键信息。
技术关键词
信息抽取方法
实例分割算法
坐标
元素
字段
模板
信息抽取系统
图像缩放
抽取装置
倾斜文本
表格
模糊算法
数据冗余
实体
彩色图像
图表
分析单元
处理器
系统为您推荐了相关专利信息
模型迁移方法
痤疮
特征提取器
文本编码器
分类准确率
视觉定位系统
工作站设备
齿轮齿条组件
六轴机器人
管件端面
视频录入设备
输电导线
视频分析
监测方法
杆塔连接处
人体模型
人体形状参数
网格重建方法
深度图
三维位置信息