摘要
本发明公开了基于自然语言对三维点云机器人引导的方法及系统,基于Transformer架构的机器人,设置动作位置t,将所述动作位置t的视觉图像数据转换为三维点云以及标准化输入,并进行下采样,完成数据预处理;基于数据预处理,将生成的预处理数据的点云进行编码,提取点云的空间特征,生成视觉信息;并通过对自然语言指令进行向量嵌入,将自然语言指令表示成模型能够理解和处理的向量,生成文本信息;基于视觉信息和文本信息,通过注意力机制将生成的视觉信息和上下文信息融合;基于上下文信息的融合,通过预测热图和偏移量,预测动作位置步骤的三维位置,提高了机器人对复杂指令的理解和执行能力以及机器人未来动作预测的准确性。
技术关键词
自然语言
注意力机制
机器人
点云信息
文本
融合视觉
指令
采样方法
编码器
数据
工具包
动作模块
线性
物体
邻居
邻域
系统为您推荐了相关专利信息
智能对话方法
大语言模型
社交平台
通讯工具
智能对话装置
巡检机器人
机器人本体
动力臂
多功能机械臂
可视探头
图像识别模型
图像识别方法
注意力机制
卷积模块
特征提取模块
因子
四足机器人
激光雷达数据
机器人位姿
激光里程计