摘要
本发明公开了一种语言驱动的物体抓取姿态预测方法、终端及存储介质,涉及人工智能与计算机视觉技术领域。本发明提供的语言驱动的物体抓取姿态预测模型是一种引入了语言交互能力的模型,可以结合用户输入的语言提示词进行交互式预测,使得操作者可以通过语言提示词指定抓取对象,并由模型预测出更准确的抓取姿态。本发明拓展了物体抓取姿态预测模型的可交互性和模型灵活性,对非结构化任务场景具有较强泛化性。
技术关键词
姿态预测方法
掩膜
图像编码器
图像嵌入
注意力编码器
抓取物体
标签
像素
令牌
坐标
模型误差
交互式预测
索引
卷积模块
解码器
计算机视觉技术
分割器