摘要
本发明涉及一种基于多模态提示学习的零样本视频动作识别方法,主要提供了一种面向可泛化视频理解的多模态提示微调框架,该框架基于视觉‑语言预训练模型CLIP,通过柔和的提示微调策略,将CLIP模型在海量图像‑文本对上学习到的跨模态关联知识有效迁移至下游零样本视频动作识别任务;提示微调策略包括基于LoRA微调,跨帧提示微调以及上下文均衡微调。本申请能够提升模型的零样本识别能力和泛化能力。
技术关键词
视频动作识别方法
文本编码器
图像编码器
视频动作分类
多模态
视频特征提取
样本
生成动作
动作识别系统
注意力
标记
序列
模板
预训练模型
处理器
可读存储介质
系统为您推荐了相关专利信息
患者生理数据
诊断辅助方法
生物传感模块
生成知识图谱
诊断辅助系统