摘要
本发明提供了一种文档信息抽取方法,包括:获取待解析文档;使用文档结构解析模型解析文档中不同的元素,给出元素的识别标框;对于解析出的页眉、页脚、二维码、插图、商标部分,将其标框范围内的图像处理成空白图像;对于解析出的印章部分,如果印章和印刷文字有重合,使用算法将印章部分去除,保留印章盖住的文字部分,将去除印章后的文字部分替换到原始图像的印章位置;提取处理后的文档图像中的印刷体、手写体,识别文档图像中的印刷体文字、手写体文字;结合原始表格、印刷体文字、手写体文字在文档图像中的位置,将识别出的文字拼装在一起;基于生成式语言大模型,设计提示词,生成所需提取的结构化数据,并以固定格式输出。
技术关键词
信息抽取方法
印章
识别文档图像
印刷体文字识别
处理单元
手写文字识别
像素点
文字识别算法
文本信息提取
透明度
二维码
计算机可读取存储介质
Lab颜色空间
文档图像数据
表格
商标
图像处理
系统为您推荐了相关专利信息
文本信息抽取方法
命名实体识别模型
实体关系数据
关系抽取模型
跨度
商业模型
项目管理模块
处理单元
原型设计工具
阶段
热成像模块
行人预警系统
反射点
行人预警方法
IP67防护等级
建筑能耗预测系统
建筑能耗预测方法
建筑能耗数据
采集单元
机器学习算法