一种基于视频问答的短视频标注方法

正文

推荐专利

一种基于视频问答的短视频标注方法

申请号：CN202411038142

申请日期：2024-07-31

公开号：CN118968383A

公开日期：2024-11-15

类型：发明专利

摘要

本发明涉及视频问答技术领域，具体为一种基于视频问答的短视频标注方法，包括如下步骤：S1、从多个短视频平台按照不同视频类型，收集短视频素材，针对不同类型视频结合每个视频的时长设定每个类型视频提取帧频率；S2、针对每个视频帧提取视觉对象和场景文本的高维特征表示，利用多模态变压器提取不同模态的特征向量序列；S3、通过预训练的深度学习模型，识别视频帧中的物体结合场景检测模型进一步识别视频中场景变化。本发明提供了一种基于视频问答的短视频标注方法，通过多模态数据采集、预处理、语义分析、多模态融合和桥段分割等步骤，实现了对影视内容的精准分割。该系统能够在复杂的影视内容中准确识别语义边界，具有广泛的应用前景。

技术关键词

视频标注方法变压器模型多模态文本视频帧前馈神经网络对象检测模型序列短视频频率自然语言生成技术视觉深度学习模型光学字符识别技术场景类别物体

系统为您推荐了相关专利信息

歌曲推荐的方法、设备和存储介质

特征提取模型意图识别模型文本推荐意图大语言模型

一种基于空间-频率交互的多模态图像融合方法

图像融合方法可见光图像频率深度空间特征状态空间模型

一种完播率高的短视频快速批量成片的方法及系统

热点文本关键词编码时间段

基于机器视觉的机电设备故障自诊断系统及方法

综合故障视觉特征机电设备故障诊断诊断系统多模态

基于空时Transformer的多模态人体姿态估计模型训练方法

模型训练方法特征提取网络文本级联姿态特征

一种基于视频问答的短视频标注方法

站点导航

APP 下载