摘要
本申请提供基于测试时间视觉代理调优的零样本视频分类方法,通过利用支持集构建视觉代理并同时微调视觉提示和文本提示,实现了对视频动作的零样本动作识别,避免了视频分类任务中视觉与文本两个模态间的语义差距问题。视觉代理构建模块和双模态提示协同调优模块组成零样本学习框架TPC。在视觉代理构建模块中利用预训练的视频编码器提取支持集视频特征来构建视觉代理,并向采样的支持集视频添加可学习的视觉提示使视觉代理可调。在双模态提示协同调优模块中通过最小化视觉代理和文本代理预测概率分布之间的KL散度同时微调可学习的视觉提示和文本提示,利用文本模态和视觉模态的信息优化视觉代理,提高了视觉代理的零样本分类性能。
技术关键词
视觉特征
视频编码器
视频分类方法
视频生成模型
样本
文本编码器
Softmax函数
大语言模型
双模态
模块
图像
代表
参数
语义
标签
动态
系统为您推荐了相关专利信息
多模态
图像标注系统
图像标注方法
视觉特征
大语言模型
透明LED屏幕
调控系统
光强检测装置
调控平台
预训练模型
腹腔镜手术
肝脏切除手术
人工智能算法
肝脏模型
配准方法