一种基于Swin Transformer的交通视频文本跟踪方法

正文

推荐专利

申请号：CN202410957474

申请日期：2024-07-17

公开号：CN119206693A

公开日期：2024-12-27

类型：发明专利

摘要

本发明公开了一种基于Swin Transformer的交通视频文本跟踪方法，特点是利用前后帧的图像中文本的关联性，通过DropMAE模块恢复被遮挡的文本，接着通过可形变文本检测模块为模型提供了灵活的感受野，再结合空间注意力机制融合不同尺度的第二检测特征图像，接着在文本匹配时结合了文本实例的视觉特征、语义特征以及几何特征，获取文本相似度邻接矩阵，最后将文本实例图像关联至视频文本跟踪过程中具有文本关联的最小距离的文本实例图像所形成的目标文本轨迹；优点是解决文本的漏检问题，能准确捕捉文本实例的边界，提升模糊变形文本实例的检测精确度，对目标交通视频的文本检测跟踪性能较佳。

技术关键词

文本图像语义特征视觉特征跟踪方法匹配模块视频交通注意力机制分支网络级联编码器方法上采样融合特征双线性匈牙利算法

系统为您推荐了相关专利信息

通过井盖时的车辆控制方法、装置、设备和存储介质

井盖车辆控制方法车轮尺寸控制策略模型数据

一种变电设备红外图像分析及诊断方法与相关设备

变电设备温度变电设备运行状态图像分析诊断方法多模态数据采集

一种基于外部知识的大模型输出生成方法、介质及设备

大语言模型数据知识库生成方法置信度阈值文本

一种播放器皮肤的生成方法、设备及存储介质

生成方法播放器视觉图像识别模型元素

基于AI技术的生产质量实时监控与优化管理方法

优化管理方法管理特征监测点规划指数

一种基于Swin Transformer的交通视频文本跟踪方法

站点导航

APP 下载