基于全模态理解的镜头标签提取方法、设备和介质

正文

推荐专利

申请号：CN202511131135

申请日期：2025-08-13

公开号：CN120635790B

公开日期：2025-11-18

类型：发明专利

摘要

本发明提供了一种基于全模态理解的镜头标签提取方法、设备和介质，涉及视频处理技术领域，提出的方法包括：将原始视频切分为多个语义完整的片段单元，并为每个片段标注镜像属性标签形成标注数据集；基于视觉语言模型，使用标注数据集进行有监督训练；所述视觉语言模型采用Qwen2.5‑VL模型；基于经过有监督训练得到的监督微调模型，采用GRPO算法对所述视觉语言模型进行优化；基于优化后的视觉语言模型对待处理视频进行初步标注，并通过人工修正错误标注，迭代更新视觉语言模型。在复杂视频场景下采用本发明方法进行镜头标签提取，可有效提高提取精度和提取效率。

技术关键词

标签提取方法视频视觉镜头三维卷积神经网络生成标签多模态特征融合算法文本镜像语义数据策略更新训练集样本场景注意力机制分布特征

系统为您推荐了相关专利信息

大件垃圾处理方法及系统

智能监控单元大件垃圾处理车辆视频监控装置图像

一种面向物理动态视觉理解的体素分割系统及方法

网格物体分割系统动态语义标签

一种无人机救援系统

无人机救援系统救援无人机系统控制器供绳装置磁场检测器

车辆行驶环境感知方法及DLP智能车灯的防眩目控制方法

防眩目控制方法双目摄像头智能车灯车辆行驶环境图像

一种资产统计方法、装置、介质及设备

资产统计方法神经网络模型对象视觉图像

基于全模态理解的镜头标签提取方法、设备和介质

站点导航

APP 下载