一种基于CLIP的视频文本嵌入融合分类方法

正文

推荐专利

申请号：CN202410855760

申请日期：2024-06-27

公开号：CN118864930A

公开日期：2024-10-29

类型：发明专利

摘要

本发明涉及视频动作识别领域，是一种基于CLIP的视频文本嵌入融合分类方法。该方法通过预训练模型CLIP的文本编码器和视觉编码器分别提取文本特征和视频帧级别视觉特征；对视频帧级别视觉特征分别进行多尺度自适应特征融合操作和无参最值特征融合操作并对生成的视频级别嵌入向量进行多层级跨模态关注融合操作最终生成全局视频级别嵌入向量；对全局视频级别嵌入向量和文本嵌入向量计算最大余弦相似度。本发明在保证自动聚焦视频帧中的关键信息的同时减少了训练和推理的计算成本，具有广阔的应用前景。

技术关键词

融合分类方法文本编码器视频帧损失函数计算方法跨模态视觉特征视频动作识别矩阵层级多尺度预训练模型训练集标签优化器超参数注意力

系统为您推荐了相关专利信息

一种基于Attention和Retinex技术的低光照安防检测装置

安防检测装置照度光照注意力机制视频帧

一种数据处理方法、装置、电子设备及存储介质

模态特征文本视觉特征注意力跨模态

一种文化传播内容审核方法

内容审核方法区块链存证动态联邦学习模型风险

基于潜在扩散模型的TTS生成方法、装置、设备及介质

语音特征生成方法文本编码器噪声数据波形

广告创意效果的预测方法、装置、设备和可读存储介质

多层感知网络图像视觉特征显著性检测模型样本

一种基于CLIP的视频文本嵌入融合分类方法

站点导航

APP 下载