基于多尺度特征融合的东南亚语言场景文本图像识别方法

AITNT
正文
推荐专利
基于多尺度特征融合的东南亚语言场景文本图像识别方法
申请号:CN202510786318
申请日期:2025-06-12
公开号:CN120913187A
公开日期:2025-11-07
类型:发明专利
摘要
本发明提出了基于多尺度特征融合的东南亚语言场景文本图像识别方法,属于自然语言处理领域;本发明使模型在复杂场景下更准确地识别东南亚语言文本。本发明方法包括:多尺度特征提取、渐进式跨尺度交互和自适应特征融合。具体来说,首先,通过多尺度编码器提取不同尺度的文本图像特征,并引入边缘特征图来增强表征能力,捕获文本的互补信息。其次,利用渐进式跨尺度交互进一步增强各尺度特征。然后,将不同尺度的特征融合,生成最终的文本特征表示。最后,通过文本解码器精确解码出东南亚语言字符。本发明提出的方法在东南亚语言文本识别任务中表现优异,并且在模型参数量减少的同时识别的准确率也有明显提升。
技术关键词
文本图像识别 多尺度特征融合 图像视觉特征 编码特征 Canny边缘检测器 交互机制 多头注意力机制 图像多尺度 场景 字符 canny算法 非暂态计算机可读存储介质 文本识别 特征提取方式 多尺度特征提取 处理器
系统为您推荐了相关专利信息
1
一种基于视觉文本引导的少标注遥感图像语义分割方法
图像编码 层级 图像视觉特征 文本 语义分割模型
2
视频生成模型训练方法、视频生成方法、装置及电子设备
视频生成模型 多模态特征 深度特征信息 噪声预测 融合特征
3
一种基于智慧交通的人工智能图像处理平台
人工智能图像处理 图像采集单元 交通场景图像 多尺度特征融合 YOLO模型
4
一种基于人工智能的数学公式识别方法
识别特征 数学公式识别方法 编码特征 检测组件 解码模型
5
一种用于压缩高光谱图像重建的自适应频率空间注意网络系统和方法
物理成像模型 多尺度特征融合 分层注意力 网络系统 轻量级卷积神经网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号