摘要
本发明属于计算机技术领域,且公开了基于汽车领域高光视频的提取系统,包括:文本语义分析模块:即获取整个视频的语义信息。在将视频输入后,通过对视频进行分帧,从而提取图像中的多模态信息和对应图像、语音的原始信息,再通过对视频中的相关标题和正文以及语音和字幕进行转换,从而得到文本语义向量,再通过通用分类模型、通用质量评分模型、通用人脸检测及识别模型和汽车领域的细粒度检测模型,从而能够基于汽车领域的特点形成整个视频的图像语义向量,最后获取视频中的音频数据,提取其特征向量,与图像向量合并,得到视频的语义向量,利用Cross Attention结构使得文本语义向量指导视频语义特征进行预测。
技术关键词
语义向量
文本语义分析
语义特征
汽车
多模态信息
人脸
图像
字幕
语音
创意性
视频帧
音频
模块
鲁棒性
中间层
格式