摘要
本发明公开了一种用于具身机器人复杂动作描述下参考视频分割方法,该方法基于DINO‑SAM模型,构建复杂文本描述下的参考视频分割框架;所述框架共含有三个模块:DINO‑SAM分割模块、动作感知聚合模块和文本‑标记匹配模块。DINO‑SAM模块利用SAM的强大分割能力,通过文本提示对视频进行初步分割,生成对象标记;动作感知聚合模块可有效捕捉不同时间尺度上的对象动作信息,增强对视频的全局理解;文本‑标记匹配模块增强了分割结果与文本描述之间的一致性。本方法有效提升了分割性能,增强了对对象动作的感知与聚合能力,并实现了语言描述与对象之间的精准匹配,提高了泛化能力和少样本检测能力。
技术关键词
视频分割方法
文本
标记
匹配模块
机器人
对象检测
交叉注意力机制
SAM模块
解码器
图像
框架
轨迹
样本
通道