摘要
本发明涉及融合预训练模型的端到端缅甸语文本图像检测识别方法及装置,属于自然语言处理领域。为了解决多行缅甸语文本识别准确率较低的问题,提出一种融合预训练模型的端到端缅甸语文本图像识别方法,主要由缅甸语文本图像数据集构建及预处理;融合滑动窗口的Transformer和特征金字塔的缅甸语文本图像特征提取模块;融合预训练模型的缅甸语检测识别模型;缅甸语图像检测识别装置四个部分构成。本发明提高了模型的泛化能力和收敛速度,相比通用的图像识别方法本发明有效地缓解了缅甸语文本图像中特征丢失、漏检或不完整导致识别准确率低的问题。
技术关键词
文本图像识别
预训练模型
训练检测模型
特征金字塔网络
融合滑动窗口
文本识别
识别器
图像检测识别装置
图像检测识别方法
图像检测器
注意力
数据
图像特征提取
编码器
融合特征