摘要
本发明公开了一种基于Swin Transformer的交通视频文本跟踪方法,特点是利用前后帧的图像中文本的关联性,通过DropMAE模块恢复被遮挡的文本,接着通过可形变文本检测模块为模型提供了灵活的感受野,再结合空间注意力机制融合不同尺度的第二检测特征图像,接着在文本匹配时结合了文本实例的视觉特征、语义特征以及几何特征,获取文本相似度邻接矩阵,最后将文本实例图像关联至视频文本跟踪过程中具有文本关联的最小距离的文本实例图像所形成的目标文本轨迹;优点是解决文本的漏检问题,能准确捕捉文本实例的边界,提升模糊变形文本实例的检测精确度,对目标交通视频的文本检测跟踪性能较佳。
技术关键词
文本
图像
语义特征
视觉特征
跟踪方法
匹配模块
视频
交通
注意力机制
分支
网络
级联
编码器方法
上采样
融合特征
双线性
匈牙利算法
系统为您推荐了相关专利信息
变电设备温度
变电设备运行状态
图像分析
诊断方法
多模态数据采集
大语言模型
数据知识库
生成方法
置信度阈值
文本