摘要
本发明提供了一种基于全模态理解的镜头标签提取方法、设备和介质,涉及视频处理技术领域,提出的方法包括:将原始视频切分为多个语义完整的片段单元,并为每个片段标注镜像属性标签形成标注数据集;基于视觉语言模型,使用标注数据集进行有监督训练;所述视觉语言模型采用Qwen2.5‑VL模型;基于经过有监督训练得到的监督微调模型,采用GRPO算法对所述视觉语言模型进行优化;基于优化后的视觉语言模型对待处理视频进行初步标注,并通过人工修正错误标注,迭代更新视觉语言模型。在复杂视频场景下采用本发明方法进行镜头标签提取,可有效提高提取精度和提取效率。
技术关键词
标签提取方法
视频
视觉
镜头
三维卷积神经网络
生成标签
多模态特征融合
算法
文本
镜像
语义
数据
策略更新
训练集
样本
场景
注意力机制
分布特征
系统为您推荐了相关专利信息
智能监控单元
大件垃圾处理
车辆
视频监控装置
图像
无人机救援系统
救援无人机
系统控制器
供绳装置
磁场检测器
防眩目控制方法
双目摄像头
智能车灯
车辆行驶环境
图像