一种基于多模态提示学习的零样本行为识别方法

正文

推荐专利

申请号：CN202410950195

申请日期：2024-07-16

公开号：CN118823644B

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种基于多模态提示学习的零样本行为识别方法，将CLIP拓展为细粒度的多模态时空理解模型，通过即插即用的帧级别多尺度时序提示(MTP)和时空语义增强，同时提高多模态时空理解的特异性和普适性。提出的多模态动态提示框架使用CLIP模型的预训练权重进行初始化，并冻结文本编码器的权重。对于视觉编码器，通过将额外的可学习多尺度时序提示模块插入到视觉编码器的不同层中，以得到精炼的时空视觉特征。对于语义文本，通过拓展和精炼类别表示的语义知识，提升对不同行为类别的理解。本发明方法和主流方法对比表现出很好的性能。

技术关键词

多尺度识别方法多模态语义知识图谱补丁文本编码器融合时序信息交叉注意力机制样本三元组动作关系嵌入特征预测类别视频视觉特征

系统为您推荐了相关专利信息

一种面向海上小目标检测的全卷积的单阶段目标检测方法

多尺度特征融合通道注意力机制网络模型训练阶段全局平均池化

一种基于傅里叶变换的双时遥感影像语义变化检测方法

语义变化检测方法遥感影像数据语义特征高分辨率光学遥感图像多尺度特征融合

一种面向复杂场景的端到端语义提取系统

联合特征提取跨模态 Apriori算法多源异构数据融合可视化控制台

基于对抗网络的DNS攻击检测与防御系统

防御系统样本特征工程反馈系统生成对抗网络

基于动态知识图谱的审计决策支持系统及方法

动态知识图谱决策支持系统节点多模态实体

一种基于多模态提示学习的零样本行为识别方法

站点导航

APP 下载