一种基于Transformer的多方向文本定位方法

正文

推荐专利

申请号：CN202510778133

申请日期：2025-06-11

公开号：CN120689412A

公开日期：2025-09-23

类型：发明专利

摘要

本发明公开了一种基于Transformer的多方向文本定位方法，包括对初始文本图像进行预处理，以得到中间图像；将中间图像输入至文本定位模型中，文本定位模型为包括骨干网络、编码器、特征融合层以及解码器的Transformer文本定位模型，通过骨干网络得到第一图像特征，通过编码器得到第二图像特征，特征融合层用于融合第一图像特征和第二图像特征，以得到包含目标文本在内的矩形框架；基于矩形框架的多个端点分别对应的端点顺序以及端点坐标值，确定初始文本图像对应的旋转角度；基于旋转角度对矩形框架进行旋转，以得到正向文本图像。通过解码器输出四点标注框，能够灵活适应任意方向和形状的文本区域，有效解决了旋转文本、倾斜文本无法准确定位的问题。

技术关键词

文本定位方法图像端点编码器解码器框架矩形倾斜文本网络匈牙利算法序列顶点坐标样本存储计算机程序参数四边形像素通道

系统为您推荐了相关专利信息

一种基于计算机视觉的无人机监控系统

无人机监控系统计算机视觉算法无人机平台高性能服务器高速网络交换机

一种半导体器件的表面处理设备及其方法

半导体激光芯片温度检测组件辐照装置光源表面镀膜装置

一种基于图像处理工控机的高清视觉检测识别系统

检测识别系统坐标误差特征点图像处理误差参数

一种基于多模态AI的医疗物资智能供应链管理方案及系统

物资全生命周期管理策略时效性计费物理

清洁机器人及其地面垃圾抓取的动态实时轨迹规划算法

轨迹规划算法机械臂轨迹规划多阶段抓取垃圾实时图像信息

一种基于Transformer的多方向文本定位方法

站点导航

APP 下载