摘要
本发明提供一种基于视觉语言模型的机器人任务执行方法以及装置,涉及人工智能领域。其中,基于视觉语言模型的机器人任务执行方法包括:获取第一目标区域附近的点云数据信息以及所述目标物体的点云数据信息;根据第一目标区域附近的点云数据信息以及所述目标物体的点云数据信息,在目标物体周围确定多个候选区域;将多个候选区域,投影到机器人到达第一目标区域后,面对目标物体时拍摄的图像上,得到携带多个候选区域的信息的第一图像数据;利用视觉语言模型,根据第一图像数据和目标任务的信息,从多个候选区域中确定第二目标区域。本发明可以在机器人接收到针对目标物体执行的目标任务后,将机器人引导到目标物体附近的适合执行目标任务的区域。
技术关键词
栅格地图
物体
导航算法
视觉
数据
图像
引导机器人
非暂态计算机可读存储介质
坐标
导航模块
处理器
点云
计算机程序产品
执行装置
网格
存储器
终端
系统为您推荐了相关专利信息
漏洞
大语言模型
区块链智能合约
分析系统
信息安全保护技术
柔性形变传感器
IMU传感器
柔性压力传感器
对象
运动估计方法
架空输电线路
传感器
覆冰
机器学习模型
电力系统智能
雷达点云数据
状态监测方法
道闸杆
网格模型
算法