摘要
本发明公开了一种使用大型语言模型的机器臂抓握姿态决策的方法,包括以下步骤:通过场景语义分割模块对真实世界的照片进行分割,得到场景中潜在的物品实例位置的掩码,将掩码与原本的照片进行相交计算,得到照片中物品的实例图像并输入物体识别模块,得到实例图像中物品实例的可能的种类名称以及该物品是该种类的种类概率,将可能的种类名称、种类概率和用户需求一同输入到大型语言模型决策模块,得到决策的物品种类,将决策的物品种类对应掩码的坐标,输入到抓握姿态生成模块中,根据输入的掩码的坐标对所有抓握姿态的像素坐标进行筛选,按照距离最近选择,得到距离输入的掩码的坐标最近的抓握姿态,提升了系统的灵活性和适应性。
技术关键词
决策
机器臂
场景语义分割
照片
识别模块
图像
抓取网络
像素
物体
文本
坐标系
基础
矩阵
相机
图片