摘要
本发明提出了基于多尺度特征融合的东南亚语言场景文本图像识别方法,属于自然语言处理领域;本发明使模型在复杂场景下更准确地识别东南亚语言文本。本发明方法包括:多尺度特征提取、渐进式跨尺度交互和自适应特征融合。具体来说,首先,通过多尺度编码器提取不同尺度的文本图像特征,并引入边缘特征图来增强表征能力,捕获文本的互补信息。其次,利用渐进式跨尺度交互进一步增强各尺度特征。然后,将不同尺度的特征融合,生成最终的文本特征表示。最后,通过文本解码器精确解码出东南亚语言字符。本发明提出的方法在东南亚语言文本识别任务中表现优异,并且在模型参数量减少的同时识别的准确率也有明显提升。
技术关键词
文本图像识别
多尺度特征融合
图像视觉特征
编码特征
Canny边缘检测器
交互机制
多头注意力机制
图像多尺度
场景
字符
canny算法
非暂态计算机可读存储介质
文本识别
特征提取方式
多尺度特征提取
处理器
系统为您推荐了相关专利信息
视频生成模型
多模态特征
深度特征信息
噪声预测
融合特征
人工智能图像处理
图像采集单元
交通场景图像
多尺度特征融合
YOLO模型
识别特征
数学公式识别方法
编码特征
检测组件
解码模型
物理成像模型
多尺度特征融合
分层注意力
网络系统
轻量级卷积神经网络