一种用于具身机器人复杂动作描述下参考视频分割方法

正文

推荐专利

申请号：CN202510510769

申请日期：2025-04-23

公开号：CN120032302B

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种用于具身机器人复杂动作描述下参考视频分割方法，该方法基于DINO‑SAM模型，构建复杂文本描述下的参考视频分割框架；所述框架共含有三个模块：DINO‑SAM分割模块、动作感知聚合模块和文本‑标记匹配模块。DINO‑SAM模块利用SAM的强大分割能力，通过文本提示对视频进行初步分割，生成对象标记；动作感知聚合模块可有效捕捉不同时间尺度上的对象动作信息，增强对视频的全局理解；文本‑标记匹配模块增强了分割结果与文本描述之间的一致性。本方法有效提升了分割性能，增强了对对象动作的感知与聚合能力，并实现了语言描述与对象之间的精准匹配，提高了泛化能力和少样本检测能力。

技术关键词

视频分割方法文本标记匹配模块机器人对象检测交叉注意力机制 SAM模块解码器图像框架轨迹样本通道

一种用于具身机器人复杂动作描述下参考视频分割方法

站点导航

APP 下载