摘要
本发明公开一种构造做法表识别方法、装置、计算机设备及存储介质,涉及表格识别技术领域,包括:获取构造做法表,从构造做法表中提取文本行;对文本行进行语义分类,确定文本行的字段类型;基于语义将所有做法内容字段划分为至少一个做法块;基于做法块、做法编号字段、做法名称字段以及适用部位字段在构造做法表中的位置信息,确定做法块匹配的做法编号字段、做法名称字段以及适用部位字段。本发明颠覆了传统“先还原物理结构、再按列提取内容”的表格识别流程,通过“语义聚合+以做法块为中心的空间反向匹配”策略,突破传统表格识别对物理结构的依赖。该"语义聚合+空间定位"方法显著提升针对复杂构造做法表的字段识别精度。
技术关键词
构造做法
字段
文本分类模型
文本行
识别方法
计算机设备
语义
表格识别技术
逻辑
标记
聚类
识别装置
处理器
可读存储介质
存储器
物理
基准