文档内容识别的结构信息优化方法

正文

推荐专利

文档内容识别的结构信息优化方法

申请号：CN202510918198

申请日期：2025-07-03

公开号：CN120412002B

公开日期：2025-08-26

类型：发明专利

摘要

本发明提供了文档内容识别的结构信息优化方法，包括以下步骤：步骤一、获取专卖许可证的图片，基于深度学习模型提取图片中所有文字区域的文本框及其坐标与内容。本发明通过K‑Means空间聚类算法对文本框坐标动态聚类，配合列平移与滚动机制，解决了印刷设备误差等导致的文字错位问题，确保信息提取时字段与值的准确对应；借助PaddleOCR定制训练提升文本检测精度，结合Sentence‑BERT构建语义匹配模型及语义连贯性校验，解决了印刷缺失等导致的信息缺失问题，保障了信息管理及监管的准确性与效率；通过摒弃传统固定位置方法，采用动态聚类与排序、语义+空间双重匹配，适应不同版式和错位场景，解决了现有技术难以处理印刷错位的问题。

技术关键词

信息优化方法空间聚类算法深度学习模型语义图片文本检测模型字段初始聚类中心印刷设备错位坐标点锚点企业动态许可间距日期

文档内容识别的结构信息优化方法

站点导航

APP 下载