基于测试时间视觉代理调优的零样本视频分类方法

正文

推荐专利

申请号：CN202411913237

申请日期：2024-12-24

公开号：CN119851173B

公开日期：2025-11-21

类型：发明专利

摘要

本申请提供基于测试时间视觉代理调优的零样本视频分类方法，通过利用支持集构建视觉代理并同时微调视觉提示和文本提示，实现了对视频动作的零样本动作识别，避免了视频分类任务中视觉与文本两个模态间的语义差距问题。视觉代理构建模块和双模态提示协同调优模块组成零样本学习框架TPC。在视觉代理构建模块中利用预训练的视频编码器提取支持集视频特征来构建视觉代理，并向采样的支持集视频添加可学习的视觉提示使视觉代理可调。在双模态提示协同调优模块中通过最小化视觉代理和文本代理预测概率分布之间的KL散度同时微调可学习的视觉提示和文本提示，利用文本模态和视觉模态的信息优化视觉代理，提高了视觉代理的零样本分类性能。

技术关键词

视觉特征视频编码器视频分类方法视频生成模型样本文本编码器 Softmax函数大语言模型双模态模块图像代表参数语义标签动态

系统为您推荐了相关专利信息

一种基于多模态大模型的通用图像标注系统及方法

多模态图像标注系统图像标注方法视觉特征大语言模型

一种多场景兼容的透明LED屏幕显示调控系统

透明LED屏幕调控系统光强检测装置调控平台预训练模型

基于人工智能算法的腹腔镜肝脏切除手术配准方法及系统

腹腔镜手术肝脏切除手术人工智能算法肝脏模型配准方法

一种图像识别方法、装置及电子设备

图像识别模型模态特征样本对象图像识别方法

岩土体破裂的智能监测方法及系统

岩土体智能监测方法频率孔隙水压力地下水

基于测试时间视觉代理调优的零样本视频分类方法

站点导航

APP 下载