摘要
本发明提供了文档内容识别的结构信息优化方法,包括以下步骤:步骤一、获取专卖许可证的图片,基于深度学习模型提取图片中所有文字区域的文本框及其坐标与内容。本发明通过K‑Means空间聚类算法对文本框坐标动态聚类,配合列平移与滚动机制,解决了印刷设备误差等导致的文字错位问题,确保信息提取时字段与值的准确对应;借助PaddleOCR定制训练提升文本检测精度,结合Sentence‑BERT构建语义匹配模型及语义连贯性校验,解决了印刷缺失等导致的信息缺失问题,保障了信息管理及监管的准确性与效率;通过摒弃传统固定位置方法,采用动态聚类与排序、语义+空间双重匹配,适应不同版式和错位场景,解决了现有技术难以处理印刷错位的问题。
技术关键词
信息优化方法
空间聚类算法
深度学习模型
语义
图片
文本检测模型
字段
初始聚类中心
印刷设备
错位
坐标点
锚点
企业
动态
许可
间距
日期