一种基于Transformer的多方向文本定位方法

AITNT
正文
推荐专利
一种基于Transformer的多方向文本定位方法
申请号:CN202510778133
申请日期:2025-06-11
公开号:CN120689412A
公开日期:2025-09-23
类型:发明专利
摘要
本发明公开了一种基于Transformer的多方向文本定位方法,包括对初始文本图像进行预处理,以得到中间图像;将中间图像输入至文本定位模型中,文本定位模型为包括骨干网络、编码器、特征融合层以及解码器的Transformer文本定位模型,通过骨干网络得到第一图像特征,通过编码器得到第二图像特征,特征融合层用于融合第一图像特征和第二图像特征,以得到包含目标文本在内的矩形框架;基于矩形框架的多个端点分别对应的端点顺序以及端点坐标值,确定初始文本图像对应的旋转角度;基于旋转角度对矩形框架进行旋转,以得到正向文本图像。通过解码器输出四点标注框,能够灵活适应任意方向和形状的文本区域,有效解决了旋转文本、倾斜文本无法准确定位的问题。
技术关键词
文本定位方法 图像 端点 编码器 解码器 框架 矩形 倾斜文本 网络 匈牙利算法 序列 顶点 坐标 样本 存储计算机程序 参数 四边形 像素 通道
系统为您推荐了相关专利信息
1
一种基于计算机视觉的无人机监控系统
无人机监控系统 计算机视觉算法 无人机平台 高性能服务器 高速网络交换机
2
一种半导体器件的表面处理设备及其方法
半导体激光芯片 温度检测组件 辐照装置 光源 表面镀膜装置
3
一种基于图像处理工控机的高清视觉检测识别系统
检测识别系统 坐标误差 特征点 图像处理 误差参数
4
一种基于多模态AI的医疗物资智能供应链管理方案及系统
物资全生命周期 管理策略 时效性 计费 物理
5
清洁机器人及其地面垃圾抓取的动态实时轨迹规划算法
轨迹规划算法 机械臂轨迹规划 多阶段 抓取垃圾 实时图像信息
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号