摘要
本申请涉及图像处理与模式识别技术领域,尤其涉及一种基于用户视频数据的分类方法、设备及介质,所述方法包括:采集用户上传的视频数据,并从中提取多个关键帧;使用具备时序建模能力的视频特征提取网络和图像级空间特征提取网络分别提取所述关键帧间的时序特征和每一关键帧的空间特征,并基于所述时序特征与空间特征生成视频视觉特征;采集用户在观看该视频数据过程中的行为数据,并基于该行为数据构建最终的用户行为嵌入向量;将所述最终的用户行为嵌入向量与所述视频视觉特征进行融合,生成联合特征表示;将所述联合特征表示输入至预先训练好的图神经网络分类模型中进行分类,输出所述视频数据所属的一个或多个语义类别标签。
技术关键词
关键帧
分类方法
视频特征提取
神经网络分类
空间特征提取
时序特征
视觉特征
数据
三维卷积神经网络
语义
数值
优化网络参数
残差神经网络
模式识别技术
存储计算机程序
指标
阈值方法