摘要
本发明涉及会培场景行为分析技术领域,且公开了一种基于时序视觉的会培场景行为分析方法,通过分析系统对时序中单个视频帧采用Backone+Neck+Head的特征提取模式;本发明在视觉帧上特征提取方面采用了Swin‑transformer模块在图像处理中充当了类似CNN中卷积操作的作用,但其基于Transformer结构的特点使其在处理全局关系、长距离信息传递等方面具有优势,能够有效地提高模型对图像内容的抽象能力和表达能力;采用了CBAM模块通过通道注意力和空间注意力机制的综合利用,可以改善CNN模型对图像特征的处理和学习能力,增强网络的表征能力,提高图像处理任务的性能和准确度;采用多个检测头来提升对不同尺度目标的检测能力四个检测头,来解决漏检或检测效果不佳的问题。
技术关键词
时序
分析方法
视觉
特征提取模块
组合模块
状态空间模型
场景
深度学习模型
对象
识别模块
视频帧
图像处理
滤波器
注意力机制
通道
分析系统