摘要
本发明公开了一种基于跨特征交互Transformer的群体行为识别方法和系统,首先提取视频片段的外观和姿态双分支特征,输入跨特征校正模块进行编码交互,经池化拼接和MLP生成校正向量实现特征优化;校正结果输入跨特征交互Transformer模块:通过位置编码整合空间信息,门控瓶颈块动态校准特征,再利用交叉注意力机制生成交互感知特征;该特征经非对称卷积融合模块整合时空信息,替代标准对称卷积以增强局部细节与全局上下文;最后通过全连接层维度变换,Softmax层输出群体行为类别的概率分布。通过特征校正、交互式Transformer和非对称融合三重创新,有效挖掘多模态特征的互补信息,显著提升识别精度。
技术关键词
感知特征
姿态特征
交叉注意力机制
校正模块
特征提取网络
分支
瓶颈
多层感知器
编码
识别方法
关节点
通道
前馈神经网络
全局平均池化
校准特征
多模态特征
视频帧
系统为您推荐了相关专利信息
变化检测方法
变化检测模型
巡检无人机
融合特征
影像
深度特征学习
液晶显示屏图像
卷积模块
特征提取网络
表面缺陷检测
回环检测方法
地点
特征描述符
特征金字塔
视觉特征
数字高程模型
广义
重采样方法
视频合成孔径雷达
算法
电力电子设备
配电系统
电磁暂态模型
数据驱动模型
状态转移模型