基于多尺度特征融合的东南亚语言场景文本图像识别方法

正文

推荐专利

申请号：CN202510786318

申请日期：2025-06-12

公开号：CN120913187A

公开日期：2025-11-07

类型：发明专利

摘要

本发明提出了基于多尺度特征融合的东南亚语言场景文本图像识别方法，属于自然语言处理领域；本发明使模型在复杂场景下更准确地识别东南亚语言文本。本发明方法包括：多尺度特征提取、渐进式跨尺度交互和自适应特征融合。具体来说，首先，通过多尺度编码器提取不同尺度的文本图像特征，并引入边缘特征图来增强表征能力，捕获文本的互补信息。其次，利用渐进式跨尺度交互进一步增强各尺度特征。然后，将不同尺度的特征融合，生成最终的文本特征表示。最后，通过文本解码器精确解码出东南亚语言字符。本发明提出的方法在东南亚语言文本识别任务中表现优异，并且在模型参数量减少的同时识别的准确率也有明显提升。

技术关键词

文本图像识别多尺度特征融合图像视觉特征编码特征 Canny边缘检测器交互机制多头注意力机制图像多尺度场景字符 canny算法非暂态计算机可读存储介质文本识别特征提取方式多尺度特征提取处理器

系统为您推荐了相关专利信息

一种基于视觉文本引导的少标注遥感图像语义分割方法

图像编码层级图像视觉特征文本语义分割模型

视频生成模型训练方法、视频生成方法、装置及电子设备

视频生成模型多模态特征深度特征信息噪声预测融合特征

一种基于智慧交通的人工智能图像处理平台

人工智能图像处理图像采集单元交通场景图像多尺度特征融合 YOLO模型

一种基于人工智能的数学公式识别方法

识别特征数学公式识别方法编码特征检测组件解码模型

一种用于压缩高光谱图像重建的自适应频率空间注意网络系统和方法

物理成像模型多尺度特征融合分层注意力网络系统轻量级卷积神经网络

基于多尺度特征融合的东南亚语言场景文本图像识别方法

站点导航

APP 下载