摘要
本发明公开了一种基于多模态提示学习的零样本行为识别方法,将CLIP拓展为细粒度的多模态时空理解模型,通过即插即用的帧级别多尺度时序提示(MTP)和时空语义增强,同时提高多模态时空理解的特异性和普适性。提出的多模态动态提示框架使用CLIP模型的预训练权重进行初始化,并冻结文本编码器的权重。对于视觉编码器,通过将额外的可学习多尺度时序提示模块插入到视觉编码器的不同层中,以得到精炼的时空视觉特征。对于语义文本,通过拓展和精炼类别表示的语义知识,提升对不同行为类别的理解。本发明方法和主流方法对比表现出很好的性能。
技术关键词
多尺度
识别方法
多模态
语义知识图谱
补丁
文本编码器
融合时序信息
交叉注意力机制
样本
三元组
动作关系
嵌入特征
预测类别
视频
视觉特征
系统为您推荐了相关专利信息
多尺度特征融合
通道注意力机制
网络模型训练
阶段
全局平均池化
语义变化检测方法
遥感影像数据
语义特征
高分辨率光学遥感图像
多尺度特征融合
联合特征提取
跨模态
Apriori算法
多源异构数据融合
可视化控制台