基于多模态提示学习的零样本视频动作识别方法

正文

推荐专利

申请号：CN202511017006

申请日期：2025-07-23

公开号：CN120932150A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及一种基于多模态提示学习的零样本视频动作识别方法，主要提供了一种面向可泛化视频理解的多模态提示微调框架，该框架基于视觉‑语言预训练模型CLIP，通过柔和的提示微调策略，将CLIP模型在海量图像‑文本对上学习到的跨模态关联知识有效迁移至下游零样本视频动作识别任务；提示微调策略包括基于LoRA微调，跨帧提示微调以及上下文均衡微调。本申请能够提升模型的零样本识别能力和泛化能力。

技术关键词

视频动作识别方法文本编码器图像编码器视频动作分类多模态视频特征提取样本生成动作动作识别系统注意力标记序列模板预训练模型处理器可读存储介质

系统为您推荐了相关专利信息

变电站一次设计图纸对应SSD模型生成方法和系统

图纸变电站模型生成方法电力系统数字化逻辑

一种患者赋权诊断辅助方法和系统

患者生理数据诊断辅助方法生物传感模块生成知识图谱诊断辅助系统

一种基于大语言模型可解释决策的智能面试评分系统

大语言模型文本多模态语义图谱

用于多层笼养鸡舍的巡检机器人的巡检方法及巡检平台

巡检机器人笼养鸡舍巡检平台巡检方法服务器

基于多模态数据的农业场景识别与验证方法及系统

基础分类器农业多模态集成分类器场景类别

基于多模态提示学习的零样本视频动作识别方法

站点导航

APP 下载