摘要
本发明公开了一种基于Transformer的多方向文本定位方法,包括对初始文本图像进行预处理,以得到中间图像;将中间图像输入至文本定位模型中,文本定位模型为包括骨干网络、编码器、特征融合层以及解码器的Transformer文本定位模型,通过骨干网络得到第一图像特征,通过编码器得到第二图像特征,特征融合层用于融合第一图像特征和第二图像特征,以得到包含目标文本在内的矩形框架;基于矩形框架的多个端点分别对应的端点顺序以及端点坐标值,确定初始文本图像对应的旋转角度;基于旋转角度对矩形框架进行旋转,以得到正向文本图像。通过解码器输出四点标注框,能够灵活适应任意方向和形状的文本区域,有效解决了旋转文本、倾斜文本无法准确定位的问题。
技术关键词
文本定位方法
图像
端点
编码器
解码器
框架
矩形
倾斜文本
网络
匈牙利算法
序列
顶点
坐标
样本
存储计算机程序
参数
四边形
像素
通道
系统为您推荐了相关专利信息
无人机监控系统
计算机视觉算法
无人机平台
高性能服务器
高速网络交换机
半导体激光芯片
温度检测组件
辐照装置
光源
表面镀膜装置
检测识别系统
坐标误差
特征点
图像处理
误差参数
轨迹规划算法
机械臂轨迹规划
多阶段
抓取垃圾
实时图像信息