摘要
本公开提供了一种CLIP模型训练方法、电子设备及计算机程序产品。本公开的CLIP模型训练方法包括:获取视频样本集合和视频样本集合中每个视频样本的视频描述文本;利用CLIP模型的视觉编码器分别获取每个视频样本的融合时序视频特征;利用CLIP模型的文本编码器分别获取每个视频样本的视频描述文本的适配器增强文本特征;通过融合时序视频特征和适配器增强文本特征对CLIP模型进行训练。
技术关键词
模型训练方法
文本编码器
适配器
样本
时序
计算机程序产品
视频帧
输出特征
视觉
跨模态
格式模板
电子设备
视频编码器
多模态
处理器
存储器
图像
标签