摘要
面向多场景体育视频的镜头分割方法、设备和存储介质,首先基于多种体育场景的视频内容,构建具有明确语义信息的细粒度相机镜头分割数据集,然后利用自监督视频特征提取模型VideoMAE对输入视频进行编码,获得帧级视觉语义特征;最后构建基于空洞时间卷积与层次化注意力机制的编码器‑解码器结构的镜头分割模型,通过编码器建模局部时间上下文,解码器多阶段细化输出帧级镜头分类结果。本发明实现对体育视频中复杂镜头类别的准确分割,实验结果表明所提出模型在所述数据集上获得优异的分割精度与时序一致性。本发明可为视频内容理解、自动剪辑、体育视频分析等任务提供技术支撑,并推动基于语义理解的视频结构分析研究的发展。
技术关键词
镜头分割方法
面向多场景
编码器
体育
计算机可执行程序
空洞
特写镜头
解码器结构
相机镜头
视频特征提取
交叉注意力机制
缩放镜头
语义
全景镜头
类别分布概率
局部注意力机制
系统为您推荐了相关专利信息
SERS检测方法
肠出血性大肠杆菌
标记
分类准确率
朴素贝叶斯
上料机器人
下料机器人
信息采集单元
双机器人
防撞方法
多源遥感影像
散射特征
空间金字塔池化
地表水
融合特征