摘要
本发明提供一种面向室内安防监控视频场景的开放词汇群体行为检测方法,属于视频动作识别领域。步骤如下:S1:收集并处理室内场景监控视频,获取含人有效视频片段,获得各有效视频片段的三元标注结果<视频,文本,标志>;S2:对视频每一帧和对应的文本,利用CLIP预训练模型的Swin‑B、BERT结构分别作为图像、文本编码器;Swin‑B和BERT参数均更新且用正则项约束,最终确定图像‑文本编码器;S3:构建、训练并确定开放词汇群体行为检测模型;S4:输入实际监控视频至开放词汇群体行为检测模型获得每个群体的行为类别。本发明能同时实现对室内安防监控视频中的每个人员识别出其属于哪个群体,并同时对每个群体的行为都进行分类,还能满足开放词汇检测需求。
技术关键词
室内安防监控
文本编码器
注意力模型
多模态
图像编码器
矩形包围框
标志
场景
行人检测
编解码
视频动作识别
三元组
融合特征
解码器
时序
随机梯度下降
序列
系统为您推荐了相关专利信息
卷积长短期记忆
多尺度特征
交叉注意力机制
长短期记忆神经网络
地基云图
多模态医学图像
预训练方法
深度学习网络
图像重建
深度学习神经网络
膝关节疾病
早期预警系统
早期预警方法
数据分析单元
数据采集单元
协同注意力
融合检测方法
数据
差分隐私保护技术
跨模态