一种文档信息抽取方法

AITNT
正文
推荐专利
一种文档信息抽取方法
申请号:CN202510430398
申请日期:2025-04-08
公开号:CN119964170B
公开日期:2025-07-22
类型:发明专利
摘要
本发明提供了一种文档信息抽取方法,包括:获取待解析文档;使用文档结构解析模型解析文档中不同的元素,给出元素的识别标框;对于解析出的页眉、页脚、二维码、插图、商标部分,将其标框范围内的图像处理成空白图像;对于解析出的印章部分,如果印章和印刷文字有重合,使用算法将印章部分去除,保留印章盖住的文字部分,将去除印章后的文字部分替换到原始图像的印章位置;提取处理后的文档图像中的印刷体、手写体,识别文档图像中的印刷体文字、手写体文字;结合原始表格、印刷体文字、手写体文字在文档图像中的位置,将识别出的文字拼装在一起;基于生成式语言大模型,设计提示词,生成所需提取的结构化数据,并以固定格式输出。
技术关键词
信息抽取方法 印章 识别文档图像 印刷体文字识别 处理单元 手写文字识别 像素点 文字识别算法 文本信息提取 透明度 二维码 计算机可读取存储介质 Lab颜色空间 文档图像数据 表格 商标 图像处理
系统为您推荐了相关专利信息
1
一种地质知识约束的文本信息抽取方法及系统
文本信息抽取方法 命名实体识别模型 实体关系数据 关系抽取模型 跨度
2
火灾探测器去中心化编码自组网方法及系统
自组网方法 火灾探测器 电子设备 通讯 芯片
3
一种基于商业模型的科研成果转化系统及方法
商业模型 项目管理模块 处理单元 原型设计工具 阶段
4
一种热成像协同定位反射点的高速公路行人预警系统及方法
热成像模块 行人预警系统 反射点 行人预警方法 IP67防护等级
5
一种基于动态迁移学习的建筑能耗预测方法及系统
建筑能耗预测系统 建筑能耗预测方法 建筑能耗数据 采集单元 机器学习算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号