基于测试时间视觉代理调优的零样本视频分类方法

AITNT
正文
推荐专利
基于测试时间视觉代理调优的零样本视频分类方法
申请号:CN202411913237
申请日期:2024-12-24
公开号:CN119851173B
公开日期:2025-11-21
类型:发明专利
摘要
本申请提供基于测试时间视觉代理调优的零样本视频分类方法,通过利用支持集构建视觉代理并同时微调视觉提示和文本提示,实现了对视频动作的零样本动作识别,避免了视频分类任务中视觉与文本两个模态间的语义差距问题。视觉代理构建模块和双模态提示协同调优模块组成零样本学习框架TPC。在视觉代理构建模块中利用预训练的视频编码器提取支持集视频特征来构建视觉代理,并向采样的支持集视频添加可学习的视觉提示使视觉代理可调。在双模态提示协同调优模块中通过最小化视觉代理和文本代理预测概率分布之间的KL散度同时微调可学习的视觉提示和文本提示,利用文本模态和视觉模态的信息优化视觉代理,提高了视觉代理的零样本分类性能。
技术关键词
视觉特征 视频编码器 视频分类方法 视频生成模型 样本 文本编码器 Softmax函数 大语言模型 双模态 模块 图像 代表 参数 语义 标签 动态
系统为您推荐了相关专利信息
1
一种基于多模态大模型的通用图像标注系统及方法
多模态 图像标注系统 图像标注方法 视觉特征 大语言模型
2
一种多场景兼容的透明LED屏幕显示调控系统
透明LED屏幕 调控系统 光强检测装置 调控平台 预训练模型
3
基于人工智能算法的腹腔镜肝脏切除手术配准方法及系统
腹腔镜手术 肝脏切除手术 人工智能算法 肝脏模型 配准方法
4
一种图像识别方法、装置及电子设备
图像识别模型 模态特征 样本 对象 图像识别方法
5
岩土体破裂的智能监测方法及系统
岩土体 智能监测方法 频率 孔隙水压力 地下水
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号