摘要
本申请提供了基于yo lo与RoiMViTv2的多目标视频行为识别方法,涉及人工智能、计算机视觉的动作识别与目标追踪技术领域,包括:将原始视频拆分为多个单帧图像序列,通过YOLOv11检测算法进行处理,得到每帧图像的候选目标区域;使用DeepSort算法对候选目标区域进行跨帧关联,以得到每个目标的跨帧轨迹;将多个单帧图像序列通过MViTv2模型捕捉全局时空依赖关系,生成全图特征;基于全图特征和跨帧轨迹,进行坐标缩放和时空对齐操作,得到特征张量;对特征张量进行时序和空间的池化操作以及分类头处理,生成每个目标的最高概率标签及置信度。
技术关键词
视频
图像
Softmax函数
识别方法
轨迹
算法
标签
压缩特征
序列
处理器
坐标
计算机视觉
生成特征
时序
注意力机制
输出特征
程序
可读存储介质
关系
存储器
系统为您推荐了相关专利信息
乳腺癌风险评估
多模态
算法模型
风险评估技术
矩阵
电子围栏设备
安全控制方法
视频监控设备
视频监控数据传输
异常事件
输电线绝缘子
故障检测模型
故障检测方法
上采样
Sigmoid函数
钢印字符识别方法
Retinex理论
光照
字符识别模型
图像增强模型
道路坑洞
YOLO模型
原始图像数据
无人机图像采集
图像分割模型