摘要
本发明涉及视频动作识别领域,是一种基于CLIP的视频文本嵌入融合分类方法。该方法通过预训练模型CLIP的文本编码器和视觉编码器分别提取文本特征和视频帧级别视觉特征;对视频帧级别视觉特征分别进行多尺度自适应特征融合操作和无参最值特征融合操作并对生成的视频级别嵌入向量进行多层级跨模态关注融合操作最终生成全局视频级别嵌入向量;对全局视频级别嵌入向量和文本嵌入向量计算最大余弦相似度。本发明在保证自动聚焦视频帧中的关键信息的同时减少了训练和推理的计算成本,具有广阔的应用前景。
技术关键词
融合分类方法
文本编码器
视频帧
损失函数计算方法
跨模态
视觉特征
视频动作识别
矩阵
层级
多尺度
预训练模型
训练集
标签
优化器
超参数
注意力
系统为您推荐了相关专利信息
内容审核方法
区块链存证
动态
联邦学习模型
风险
多层感知网络
图像
视觉特征
显著性检测模型
样本