摘要
本发明提供一种基于基座模型知识的机器人控制方法和装置,涉及机器人控制技术领域,包括:将当前任务对应的文本提示词和视觉提示词输入多模态基座模型,得到多模态基座模型输出的虚拟视角;将多视角图像对应的三维点云投影到虚拟视角对应的图像平面,生成虚拟视角图像;将当前任务的语言指令和虚拟视角图像输入关键点预测模型,得到关键点预测模型输出的目标关键点的空间位置信息;基于目标关键点的空间位置信息,生成机器人的运动轨迹,并基于运动轨迹控制机器人执行当前任务。本发明提供的方法和装置,提高了机器人在三维操作任务中的感知效率和操作精度。
技术关键词
关键点
机器人控制方法
图像
多模态特征融合
运动轨迹控制
基座
多视角
热力图
融合特征
点云
文本
相机
非暂态计算机可读存储介质
视觉
机器人控制装置
机器人控制技术
令牌
系统为您推荐了相关专利信息
工件
图像特征向量
多模态特征融合
多模态数据融合
参数
回转小车
测距传感器
喷射组件
行走支撑架
检测齿圈
量化分析方法
燃烧工况
数据
模态工况
并行集成学习