融合预训练模型的端到端缅甸语文本图像识别方法及装置

正文

推荐专利

申请号：CN202410803820

申请日期：2024-06-20

公开号：CN118799896A

公开日期：2024-10-18

类型：发明专利

摘要

本发明涉及融合预训练模型的端到端缅甸语文本图像检测识别方法及装置，属于自然语言处理领域。为了解决多行缅甸语文本识别准确率较低的问题，提出一种融合预训练模型的端到端缅甸语文本图像识别方法，主要由缅甸语文本图像数据集构建及预处理；融合滑动窗口的Transformer和特征金字塔的缅甸语文本图像特征提取模块；融合预训练模型的缅甸语检测识别模型；缅甸语图像检测识别装置四个部分构成。本发明提高了模型的泛化能力和收敛速度，相比通用的图像识别方法本发明有效地缓解了缅甸语文本图像中特征丢失、漏检或不完整导致识别准确率低的问题。

技术关键词

文本图像识别预训练模型训练检测模型特征金字塔网络融合滑动窗口文本识别识别器图像检测识别装置图像检测识别方法图像检测器注意力数据图像特征提取编码器融合特征

融合预训练模型的端到端缅甸语文本图像识别方法及装置

站点导航

APP 下载