一种基于视觉语言模型的自动化动作轨迹标注系统及方法

AITNT
正文
推荐专利
一种基于视觉语言模型的自动化动作轨迹标注系统及方法
申请号:CN202510849954
申请日期:2025-06-24
公开号:CN120747818A
公开日期:2025-10-03
类型:发明专利
摘要
本发明提供一种基于视觉语言模型的自动化动作轨迹标注系统及方法,涉及视觉技术模型领域。该基于视觉语言模型的自动化动作轨迹标注系统,包括关键帧提取模块、VLM语义标注模块、历史标注数据库、扩散模型优化模块和反思修正模块,所述关键帧提取模块通过光流分析与TSN网络场景变化检测算法从输入视频中提取关键帧序列,输出包含动作起止点的候选分割点集合,所述VLM语义标注模块采用多模态VLM,将关键帧图像与上下文文本指令作为输入,生成初步语义标签及对应的视觉‑语言嵌入向量。本发明解决了现有动作轨迹标注技术的多项瓶颈,实现了标注精度显著提升,达到了时间边界优化的目标。
技术关键词
关键帧 场景变化检测 标注系统 标注方法 结构化自然语言 轨迹 模块 语义标签 视觉特征 多模态 标注技术 推理机制 序列 抑制算法 视频 图像编码 文本
系统为您推荐了相关专利信息
1
基于多模态大模型的机器人控制方法、系统、设备及介质
机器人控制方法 多模态特征 融合特征 序列 结构化自然语言
2
短视频分类方法、系统、设备及存储介质
局部纹理特征 短视频分类方法 音频特征识别 训练分类模型 离散余弦变换系数
3
一种基于深度学习的自动化数据标注方法及系统
数据标注方法 词向量模型 文本 深度学习模型 节点特征
4
展示设备的监播方法、系统及计算机程序产品
展示设备 多模态 数据处理模块 数据处理中心 感知哈希算法
5
基于深度学习模型的内容指纹生成方法、系统及相关方法
深度学习模型 保护数字作品 指纹生成方法 保护方法 局部特征提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号