摘要
本发明提供了一种基于引导词与拓扑结构的语义锚点定义方法,用于解决具有相同语义内容但版式差异较大的结构化票据中关键字段定位难的问题。该方法包括:构建语义字段与引导词字典;对票据图像进行OCR识别;在文本块中识别匹配的引导词块;建立引导词之间的空间邻接关系;最终生成包含语义字段(S)、邻接结构(N)与语义内容提取方向(D)的锚点结构三元组。本发明能够构建表达票据语义布局的结构化表示,具备良好的跨版式适应性,为后续版式匹配与字段内容提取提供稳定锚点支撑,适用于海关产地证、报关单、发票等多类型异构票据处理场景。
技术关键词
语义
定义方法
锚点结构
票据
文本
三元组
字典
光学字符识别
布局模板
关系
字段
计算中心
单据
关键字
发票
词语
图像
异构