摘要
本申请实施例提供了一种视频帧分类模型的训练方法、视频片段的检索方法及装置,涉及视频处理技术领域,视频帧分类模型的训练方法包括:获取样本视频以及样本文本;将样本文本输入视频帧分类模型中的文本特征提取网络得到样本文本特征;将样本视频中的各待处理视频帧输入视觉特征提取网络,得到样本视觉特征;利用融合网络,基于注意力机制对样本文本特征和各样本视觉特征进行融合得到样本融合特征;将样本融合特征输入分类网络得到第一预测分类结果;根据第一预测分类结果与真实分类结果之间的差异对视频帧分类模型进行模型调参,直至达到模型收敛,得到训练完成的视频帧分类模型。通过本方案能够从视频中检索出符合用户描述的视频片段。
技术关键词
视频帧
文本
样本
融合特征
分类网络
视觉特征提取
注意力机制
特征提取网络
条件随机场算法
检索方法
实体
矩阵
特征提取模块
计算机程序产品
可读存储介质
检索装置
系统为您推荐了相关专利信息
大语言模型
识别方法
多模态特征
梯度下降法
案件