基于Swin-Transformer的满文印刷体文档识别方法及系统

正文

推荐专利

申请号：CN202510954574

申请日期：2025-07-11

公开号：CN120689887A

公开日期：2025-09-23

类型：发明专利

摘要

本发明涉及一种基于Swin‑Transformer的满文印刷体文档识别方法及系统，属于光学字符识别技术领域。该方法通过数据预处理、Swin Transformer编码及解码器等步骤，实现了满文印刷体文档的高效识别。其中，数据预处理步骤对输入图像进行分割、线性映射及位置编码；Swin Transformer编码器采用窗口自注意力机制与移动窗口机制，有效捕获图像局部与跨窗口信息，并通过层次结构提取多尺度特征；解码器则基于编码器输出特征逐步解码，并集成特征提取分析模块以优化预测过程。本发明提出的Swin‑Manchu OCR模型在满文印刷体文档识别任务中准确率显著优于现有模型，具有广泛的应用前景。

技术关键词

文档识别方法印刷体图像块注意力编码器分析模块文档识别系统编码模块图像分割光学字符识别技术生成预测图像输出特征输入解码器线性多尺度特征

系统为您推荐了相关专利信息

一种基于社交媒体短文本的异常语言检测方法及系统

注意力机制记忆单元生成数据集社交媒体

一种基于乘客行为习惯机器学习的高铁座椅舒适性自动适配控制方法

适配控制方法数据角度传感器位移传感器网络模块

一种电车充电设备智能检测方法

电车充电设备智能检测方法故障检测模型分支三相VIENNA整流器

基于多模态深度学习的遥感图像变化检测系统及方法

遥感图像变化检测多模态深度学习卷积模块编码模块输出特征

一种基于机器视觉的农田作物行识别方法

作物行识别方法特征提取网络轻量级卷积神经网络通道注意力机制视觉

基于Swin-Transformer的满文印刷体文档识别方法及系统

站点导航

APP 下载