一种基于视觉语言模型的自动化动作轨迹标注系统及方法

正文

推荐专利

申请号：CN202510849954

申请日期：2025-06-24

公开号：CN120747818A

公开日期：2025-10-03

类型：发明专利

摘要

本发明提供一种基于视觉语言模型的自动化动作轨迹标注系统及方法，涉及视觉技术模型领域。该基于视觉语言模型的自动化动作轨迹标注系统，包括关键帧提取模块、VLM语义标注模块、历史标注数据库、扩散模型优化模块和反思修正模块，所述关键帧提取模块通过光流分析与TSN网络场景变化检测算法从输入视频中提取关键帧序列，输出包含动作起止点的候选分割点集合，所述VLM语义标注模块采用多模态VLM，将关键帧图像与上下文文本指令作为输入，生成初步语义标签及对应的视觉‑语言嵌入向量。本发明解决了现有动作轨迹标注技术的多项瓶颈，实现了标注精度显著提升，达到了时间边界优化的目标。

技术关键词

关键帧场景变化检测标注系统标注方法结构化自然语言轨迹模块语义标签视觉特征多模态标注技术推理机制序列抑制算法视频图像编码文本

系统为您推荐了相关专利信息

基于多模态大模型的机器人控制方法、系统、设备及介质

机器人控制方法多模态特征融合特征序列结构化自然语言

短视频分类方法、系统、设备及存储介质

局部纹理特征短视频分类方法音频特征识别训练分类模型离散余弦变换系数

一种基于深度学习的自动化数据标注方法及系统

数据标注方法词向量模型文本深度学习模型节点特征

展示设备的监播方法、系统及计算机程序产品

展示设备多模态数据处理模块数据处理中心感知哈希算法

基于深度学习模型的内容指纹生成方法、系统及相关方法

深度学习模型保护数字作品指纹生成方法保护方法局部特征提取

一种基于视觉语言模型的自动化动作轨迹标注系统及方法

站点导航

APP 下载