摘要
本发明提供一种基于视觉语言模型的自动化动作轨迹标注系统及方法,涉及视觉技术模型领域。该基于视觉语言模型的自动化动作轨迹标注系统,包括关键帧提取模块、VLM语义标注模块、历史标注数据库、扩散模型优化模块和反思修正模块,所述关键帧提取模块通过光流分析与TSN网络场景变化检测算法从输入视频中提取关键帧序列,输出包含动作起止点的候选分割点集合,所述VLM语义标注模块采用多模态VLM,将关键帧图像与上下文文本指令作为输入,生成初步语义标签及对应的视觉‑语言嵌入向量。本发明解决了现有动作轨迹标注技术的多项瓶颈,实现了标注精度显著提升,达到了时间边界优化的目标。
技术关键词
关键帧
场景变化检测
标注系统
标注方法
结构化自然语言
轨迹
模块
语义标签
视觉特征
多模态
标注技术
推理机制
序列
抑制算法
视频
图像编码
文本
系统为您推荐了相关专利信息
机器人控制方法
多模态特征
融合特征
序列
结构化自然语言
局部纹理特征
短视频分类方法
音频特征识别
训练分类模型
离散余弦变换系数
数据标注方法
词向量模型
文本
深度学习模型
节点特征
展示设备
多模态
数据处理模块
数据处理中心
感知哈希算法
深度学习模型
保护数字作品
指纹生成方法
保护方法
局部特征提取