摘要
本说明书一个或多个实施例公开了一种视频数据处理方法及装置。该方法首先获取目标视频以及与目标视频的视频类别相关的多个视频类别标签,其次,通过图文跨模态预训练模型对目标视频进行特征提取,得到目标视频的文本特征和包括多个视频帧的第二视频特征,并将目标视频的第二视频特征输入训练后的视频调制模型中,通过视频调制模型中的时序调制矩阵在预设时间段内对目标视频进行调制处理,得到目标视频对应的调制处理后的第二视频特征,最后计算调制处理后的第二视频特征和多个视频类别标签之间的第一相似度,计算调制处理后的第二视频特征和目标视频的文本特征之间的第二相似度,并基于第一相似度和第二相似度确定目标视频的视频类别。
技术关键词
预训练模型
视频数据处理方法
跨模态
时间段
样本
标签
矩阵
图文
时序特征
文本编码器
视频数据处理装置
存储计算机可执行指令
视频帧
数据获取模块
面部识别
视觉