摘要
本发明公开了一种文件结构化信息的提取方法、装置、设备、介质和产品,涉及数据处理技术领域,包括:确定待处理文件的文件内容类型;在确定文件内容类型为图像内容文件的情况下,对待处理文件进行文本识别,确定待处理文件包含的待处理文本以及待处理文本在待处理文件中对应的文本区域坐标;对待处理文本进行结构化内容实体识别,确定待处理文本包含的结构化内容实体以及各结构化内容实体在文本区域坐标中分别对应的内容实体坐标;根据各内容实体坐标构建各结构化内容实体之间的内容实体关系数据,并根据内容实体关系数据对待处理文本进行结构化信息提取,得到待处理文件包含的目标结构化信息。本发明能够提升结构化信息提取的准确性及完整性。
技术关键词
实体关系数据
文本识别
坐标
大语言模型
指令
语义
表格
可读存储介质
列表
数据处理技术
计算机程序产品
图像
电子设备
处理器通信
层级
系统为您推荐了相关专利信息
功率场效应管
外延层电阻率
功率器件
线性单元
层厚度
机器人视觉系统
轨迹
测量点
激光跟踪仪
导引机器人
表格
内容识别方法
超文本标记语言
文本识别
标签