摘要
本发明提出一种基于大语言模型的交互式机器人抓取方法,该方法包括:根据当前场景的二维图像、对话交互信息和大语言模型,得到任务操作序列,所述任务操作序列包括目标物体、所述目标物体的部件信息、目标抓取位置信息以及动作信息;根据所述二维图像和所述目标抓取位置信息,结合图像分割模型,得到目标掩码区域,并根据所述目标掩码区域和所述当前场景的深度图,得到带有目标抓取位置的三维点云图;根据所述动作信息、带有目标抓取位置的三维点云图和抓取预测模型,得到目标抓取位姿,并根据所述目标抓取位姿,控制机器人对所述目标物体进行抓取。本发明提高了机器人对复杂语义指令的解析能力,还提升了机器人在精细化操作任务中的适应性。
技术关键词
交互式机器人
大语言模型
抓取方法
图像分割模型
深度图
深度相机
计算机存储介质
生成二值化图像
物体
场景
序列
处理器
抓取系统
计算机设备
存储器
语义
格式
系统为您推荐了相关专利信息
语言生成方法
视觉
融合特征
大语言模型
语言生成系统