一种基于图结构的馆藏书刊文字污点修复方法和系统

正文

推荐专利

申请号：CN202510571444

申请日期：2025-05-06

公开号：CN120599628A

公开日期：2025-09-05

类型：发明专利

摘要

本发明涉及一种基于图结构的馆藏书刊文字污点修复方法和系统，旨在高效修复馆藏书刊文字图像中的污点，提升文字识别的准确性和可靠性。具体而言，该方法首先利用PPOCRLabel软件对原始馆藏书刊图像进行精细化标注，精准提取包含字符信息的图像数据集。随后，借助图像细化等预处理手段，将图像数据转换为图结构数据，以充分挖掘文字图像的拓扑特征。通过构建一批具有代表性的测试集，统计分析每个文字图中子图的节点数，并将其合并形成测试集的节点数矩阵。进一步地，对节点数矩阵实施奇异值分解(SVD)，并依据后续文字识别模型进行阈值调优，精准选择最优决策阈值。最终，利用该阈值对同类型文字图像进行奇异值截断处理，实现文字污点的有效修复，为文字识别模型提供高质量的输入数据，显著提升其识别性能。本发明方法在修复馆藏书刊文字污点方面表现出色，不仅提升了馆藏书刊文字识别的效果，还具有较强的泛化性和鲁棒性，适用于不同字体和不同质量的馆藏书刊图像。

技术关键词

污点修复方法书刊文字识别算法图像矩阵节点数细化算法多分辨率特征数据汉字特征金字塔结构决策拓扑特征字符识别注意力机制字体

一种基于图结构的馆藏书刊文字污点修复方法和系统

站点导航

APP 下载