摘要
本发明提供一种建筑边缘场景的人体小目标检测与动作识别一体化方法,包括设置人体小目标检测器并进行预训练;构建建筑边缘场景专用的目标数据集,通过自适应尺度匹配策略调整预训练数据集的目标尺寸分布,并采用二段微调策略优化目标数据集;在检测器主干网络末端插入时序ROI对齐算子;通过序列级语义聚合头生成人体候选框;采用双通道视频主干网络提取视频片段的时空特征,从全局特征图中提取人体时空特征;通过人‑物时间编码模块生成人‑物关系特征图;通过人‑物‑人时空编码模块,将人‑物关系特征图转换并用堆叠的非局部块捕捉不同人体间的交互关系,生成高阶时空特征,同步输入边界框回归分支和动作分类分支,同步输出人体位置及动作类别。
技术关键词
识别一体化方法
编码模块
场景
建筑
双通道特征融合
非暂态计算机可读存储介质
策略
检测器
注意力机制
视频
数据
语义
时序
处理器
分支
关系建模
人体特征
计算机程序产品
系统为您推荐了相关专利信息
机器学习模型
语音特征
共享设备
样本
说话人识别方法
超白钢化玻璃
PVB胶片
微细凹凸结构
碲化镉薄膜
清洁钢化玻璃