摘要
本发明涉及视频问答技术领域,具体为一种基于视频问答的短视频标注方法,包括如下步骤:S1、从多个短视频平台按照不同视频类型,收集短视频素材,针对不同类型视频结合每个视频的时长设定每个类型视频提取帧频率;S2、针对每个视频帧提取视觉对象和场景文本的高维特征表示,利用多模态变压器提取不同模态的特征向量序列;S3、通过预训练的深度学习模型,识别视频帧中的物体结合场景检测模型进一步识别视频中场景变化。本发明提供了一种基于视频问答的短视频标注方法,通过多模态数据采集、预处理、语义分析、多模态融合和桥段分割等步骤,实现了对影视内容的精准分割。该系统能够在复杂的影视内容中准确识别语义边界,具有广泛的应用前景。
技术关键词
视频标注方法
变压器模型
多模态
文本
视频帧
前馈神经网络
对象检测模型
序列
短视频
频率
自然语言生成技术
视觉
深度学习模型
光学字符识别技术
场景类别
物体
系统为您推荐了相关专利信息
检测警报系统
图像采集模块
温度精确控制方法
动作特征
人体姿态估计算法
评论情感分析方法
矿井
情感分析模型
多尺度
文本
钢结构屋面结构
异构传感网络
局部空间特征
三维仿真模型
刚度
接触检测方法
结构检测设备
搭载装置
点云数据融合
种子
跟踪检测方法
卡尔曼滤波算法
轨迹
运动特征
级联