摘要
本发明涉及一种基于Swin‑Transformer的满文印刷体文档识别方法及系统,属于光学字符识别技术领域。该方法通过数据预处理、Swin Transformer编码及解码器等步骤,实现了满文印刷体文档的高效识别。其中,数据预处理步骤对输入图像进行分割、线性映射及位置编码;Swin Transformer编码器采用窗口自注意力机制与移动窗口机制,有效捕获图像局部与跨窗口信息,并通过层次结构提取多尺度特征;解码器则基于编码器输出特征逐步解码,并集成特征提取分析模块以优化预测过程。本发明提出的Swin‑Manchu OCR模型在满文印刷体文档识别任务中准确率显著优于现有模型,具有广泛的应用前景。
技术关键词
文档识别方法
印刷体
图像块
注意力
编码器
分析模块
文档识别系统
编码模块
图像分割
光学字符识别技术
生成预测图像
输出特征
输入解码器
线性
多尺度特征
系统为您推荐了相关专利信息
适配控制方法
数据
角度传感器
位移传感器
网络模块
电车充电设备
智能检测方法
故障检测模型
分支
三相VIENNA整流器
遥感图像变化检测
多模态深度学习
卷积模块
编码模块
输出特征
作物行识别方法
特征提取网络
轻量级卷积神经网络
通道注意力机制
视觉