摘要
本发明涉及基于多粒度解码约束的缅甸语图像文本识别方法及装置,属于自然语言处理领域。缅甸语文本具有独特的编码顺序以及字符组合规则,为了解决缅甸语图像中形似字符识别不佳的问题,提出一种基于多粒度解码约束的缅甸语文本图像识别方法,主要由缅甸语文本图像数据集构建及预处理、设计包括基于滑动窗口的Transformer、语言特性驱动的多粒度特征抽取模块、多粒度特征融合模块的基于多粒度解码约束的缅甸语文本图像识别模型以及缅甸语文本图像识别四个部分构成。根据这四个部分功能模块化制成基于多粒度解码约束的缅甸语图像文本识别装置,有效地解决了因图像质量不佳而导致的缅甸语形似字符识别困难问题。
技术关键词
文本图像识别
视觉特征
解码
滑动窗口
文本识别装置
模块
多粒度特征
多层感知器
识别字符区域
字符识别
交叉注意力机制
文本识别模型
多头注意力机制
矩阵
系统为您推荐了相关专利信息
音频数据处理方法
数据转换模块
音频数据编码器
计算机可执行指令
数据解码器
数据挖掘方法
港口设备
去噪设备
设备状态数据
设备运行状态信息
传感器位置信息
红外图像特征
像素点
应急响应方法
应急响应系统