摘要
本发明涉及图像或视频识别领域,尤其涉及一种可学习低秩双线性行为感知方法,包括:(1)建立以图像大模型为基础加入视频时空建模迁移至视频任务的框架;(2)在框架内构建视频行为识别模型,包括:视频编码器、多尺度聚合器、文本编码器、多任务解码器;(3)构建一种大模型主分支冻结仅新加参数学习的训练机制,利用服务器对视频行为识别模型进行训练,通过优化目标函数,直至网络收敛,获取局部最优网络参数,得到训练好的视频行为识别模型;(4)将待识别的视频序列输入到训练好的视频行为识别模型中识别人类行为。本发明的有益效果在于:能高精度地识别视频中的人类行为,在多个动作识别数据集中达到了先进的性能。
技术关键词
双线性
视频编码器
文本编码器
视频特征提取
适配器
解码器
跨模态
多任务
令牌
特征提取网络
识别人类
多模态
多尺度
图像
矩阵
语义特征提取
多级特征
系统为您推荐了相关专利信息
激光器芯片
激光器组件
准直透镜
圆方管体
半导体制冷器
视频动作识别方法
文本编码器
图像编码器
视频动作分类
多模态
文本编码器
浅层特征提取
语义分割网络
导线
模块