摘要
本发明涉及视频问答技术领域,具体为一种基于视频问答的短视频标注方法,包括如下步骤:S1、从多个短视频平台按照不同视频类型,收集短视频素材,针对不同类型视频结合每个视频的时长设定每个类型视频提取帧频率;S2、针对每个视频帧提取视觉对象和场景文本的高维特征表示,利用多模态变压器提取不同模态的特征向量序列;S3、通过预训练的深度学习模型,识别视频帧中的物体结合场景检测模型进一步识别视频中场景变化。本发明提供了一种基于视频问答的短视频标注方法,通过多模态数据采集、预处理、语义分析、多模态融合和桥段分割等步骤,实现了对影视内容的精准分割。该系统能够在复杂的影视内容中准确识别语义边界,具有广泛的应用前景。
技术关键词
视频标注方法
变压器模型
多模态
文本
视频帧
前馈神经网络
对象检测模型
序列
短视频
频率
自然语言生成技术
视觉
深度学习模型
光学字符识别技术
场景类别
物体
系统为您推荐了相关专利信息
特征提取模型
意图识别模型
文本
推荐意图
大语言模型
图像融合方法
可见光图像
频率
深度空间特征
状态空间模型
综合故障
视觉特征
机电设备故障诊断
诊断系统
多模态