一种基于CLIP的视频文本嵌入融合分类方法

AITNT
正文
推荐专利
一种基于CLIP的视频文本嵌入融合分类方法
申请号:CN202410855760
申请日期:2024-06-27
公开号:CN118864930A
公开日期:2024-10-29
类型:发明专利
摘要
本发明涉及视频动作识别领域,是一种基于CLIP的视频文本嵌入融合分类方法。该方法通过预训练模型CLIP的文本编码器和视觉编码器分别提取文本特征和视频帧级别视觉特征;对视频帧级别视觉特征分别进行多尺度自适应特征融合操作和无参最值特征融合操作并对生成的视频级别嵌入向量进行多层级跨模态关注融合操作最终生成全局视频级别嵌入向量;对全局视频级别嵌入向量和文本嵌入向量计算最大余弦相似度。本发明在保证自动聚焦视频帧中的关键信息的同时减少了训练和推理的计算成本,具有广阔的应用前景。
技术关键词
融合分类方法 文本编码器 视频帧 损失函数计算方法 跨模态 视觉特征 视频动作识别 矩阵 层级 多尺度 预训练模型 训练集 标签 优化器 超参数 注意力
系统为您推荐了相关专利信息
1
一种基于Attention和Retinex技术的低光照安防检测装置
安防检测装置 照度 光照 注意力机制 视频帧
2
一种数据处理方法、装置、电子设备及存储介质
模态特征 文本 视觉特征 注意力 跨模态
3
一种文化传播内容审核方法
内容审核方法 区块链存证 动态 联邦学习模型 风险
4
基于潜在扩散模型的TTS生成方法、装置、设备及介质
语音特征 生成方法 文本编码器 噪声数据 波形
5
广告创意效果的预测方法、装置、设备和可读存储介质
多层感知网络 图像 视觉特征 显著性检测模型 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号