摘要
本发明涉及一种基于图结构的馆藏书刊文字污点修复方法和系统,旨在高效修复馆藏书刊文字图像中的污点,提升文字识别的准确性和可靠性。具体而言,该方法首先利用PPOCRLabel软件对原始馆藏书刊图像进行精细化标注,精准提取包含字符信息的图像数据集。随后,借助图像细化等预处理手段,将图像数据转换为图结构数据,以充分挖掘文字图像的拓扑特征。通过构建一批具有代表性的测试集,统计分析每个文字图中子图的节点数,并将其合并形成测试集的节点数矩阵。进一步地,对节点数矩阵实施奇异值分解(SVD),并依据后续文字识别模型进行阈值调优,精准选择最优决策阈值。最终,利用该阈值对同类型文字图像进行奇异值截断处理,实现文字污点的有效修复,为文字识别模型提供高质量的输入数据,显著提升其识别性能。本发明方法在修复馆藏书刊文字污点方面表现出色,不仅提升了馆藏书刊文字识别的效果,还具有较强的泛化性和鲁棒性,适用于不同字体和不同质量的馆藏书刊图像。
技术关键词
污点修复方法
书刊
文字识别算法
图像
矩阵
节点数
细化算法
多分辨率特征
数据
汉字特征
金字塔结构
决策
拓扑特征
字符识别
注意力机制
字体