一种基于多模态提示学习的零样本行为识别方法

AITNT
正文
推荐专利
一种基于多模态提示学习的零样本行为识别方法
申请号:CN202410950195
申请日期:2024-07-16
公开号:CN118823644B
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了一种基于多模态提示学习的零样本行为识别方法,将CLIP拓展为细粒度的多模态时空理解模型,通过即插即用的帧级别多尺度时序提示(MTP)和时空语义增强,同时提高多模态时空理解的特异性和普适性。提出的多模态动态提示框架使用CLIP模型的预训练权重进行初始化,并冻结文本编码器的权重。对于视觉编码器,通过将额外的可学习多尺度时序提示模块插入到视觉编码器的不同层中,以得到精炼的时空视觉特征。对于语义文本,通过拓展和精炼类别表示的语义知识,提升对不同行为类别的理解。本发明方法和主流方法对比表现出很好的性能。
技术关键词
多尺度 识别方法 多模态 语义知识图谱 补丁 文本编码器 融合时序信息 交叉注意力机制 样本 三元组 动作关系 嵌入特征 预测类别 视频 视觉特征
系统为您推荐了相关专利信息
1
一种面向海上小目标检测的全卷积的单阶段目标检测方法
多尺度特征融合 通道注意力机制 网络模型训练 阶段 全局平均池化
2
一种基于傅里叶变换的双时遥感影像语义变化检测方法
语义变化检测方法 遥感影像数据 语义特征 高分辨率光学遥感图像 多尺度特征融合
3
一种面向复杂场景的端到端语义提取系统
联合特征提取 跨模态 Apriori算法 多源异构数据融合 可视化控制台
4
基于对抗网络的DNS攻击检测与防御系统
防御系统 样本 特征工程 反馈系统 生成对抗网络
5
基于动态知识图谱的审计决策支持系统及方法
动态知识图谱 决策支持系统 节点 多模态 实体
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号