基于全模态理解的镜头标签提取方法、设备和介质

AITNT
正文
推荐专利
基于全模态理解的镜头标签提取方法、设备和介质
申请号:CN202511131135
申请日期:2025-08-13
公开号:CN120635790B
公开日期:2025-11-18
类型:发明专利
摘要
本发明提供了一种基于全模态理解的镜头标签提取方法、设备和介质,涉及视频处理技术领域,提出的方法包括:将原始视频切分为多个语义完整的片段单元,并为每个片段标注镜像属性标签形成标注数据集;基于视觉语言模型,使用标注数据集进行有监督训练;所述视觉语言模型采用Qwen2.5‑VL模型;基于经过有监督训练得到的监督微调模型,采用GRPO算法对所述视觉语言模型进行优化;基于优化后的视觉语言模型对待处理视频进行初步标注,并通过人工修正错误标注,迭代更新视觉语言模型。在复杂视频场景下采用本发明方法进行镜头标签提取,可有效提高提取精度和提取效率。
技术关键词
标签提取方法 视频 视觉 镜头 三维卷积神经网络 生成标签 多模态特征融合 算法 文本 镜像 语义 数据 策略更新 训练集 样本 场景 注意力机制 分布特征
系统为您推荐了相关专利信息
1
大件垃圾处理方法及系统
智能监控单元 大件垃圾处理 车辆 视频监控装置 图像
2
一种面向物理动态视觉理解的体素分割系统及方法
网格 物体 分割系统 动态 语义标签
3
一种无人机救援系统
无人机救援系统 救援无人机 系统控制器 供绳装置 磁场检测器
4
车辆行驶环境感知方法及DLP智能车灯的防眩目控制方法
防眩目控制方法 双目摄像头 智能车灯 车辆行驶环境 图像
5
一种资产统计方法、装置、介质及设备
资产统计方法 神经网络模型 对象 视觉 图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号