摘要
本发明涉及档案管理领域,且公开了一种基于档案要素前置的档案安全整理系统及方法,包括通过图像感知与版面结构识别,自动定位档案页面的正文区域,实现档案图像的边界裁剪与初步网格划分;通过网格区域内文本排布特征的一致性分析,识别文字块是否完整,将不完整的文字块剔除,确定文字候选区域;在确定文字候选区域后,采用基于语义联想的动态分组方法对文本片段进行聚合,通过局部上下文特征自适应地调整文本归属策略;应用多尺度要素匹配函数,评估候选区域内文本片段与预定义档案要素的匹配度,判定文本片段的要素属性;对判定为有效要素的文本片段,进行字体边缘清晰度与语义连贯性分析。本发明具备提升要素提取准确率的优点。
技术关键词
文本
整理方法
动态分组方法
整理系统
上下文特征
空间分布规律
网格
多尺度
版面结构
字体
语义特征
页面
空间分布特征
语义相关度
图像处理算法
布局特征
图像处理模块
策略
连续性
系统为您推荐了相关专利信息
神经网络推理
性能分析方法
上下文特征
资源需求数据
策略
融合深度学习
自动识别技术
版权
数据采集模块
特征提取模块