摘要
本发明公开了增强空间感知能力的视觉语言动作大模型设计方法,该方法包括:获取多帧任务场景图像,输入二维图像编码器和视觉几何引导Transformer VGGT编码器,提取图像特征及时序空间嵌入,将自然语言指令编码为语言嵌入表示,通过交叉注意力机制融合图像特征与语言嵌入,输入预训练大模型生成跨模态表征,结合机器人本体状态信息,将融合特征输入动作专家模块输出动作控制序列,驱动机器人执行操作任务。由此,避免额外信息对原有预训练模型的破坏,相较于原有预训练视觉语言模型和动作专家的组合结构,增强利用多视角图片信息,从而在任务执行过程中对空间深度有更强的理解能力,提高任务成功率,实现了更高效、更鲁棒的机器人感知与决策一体化系统。
技术关键词
模型设计方法
交叉注意力机制
图像编码器
视觉
自然语言
末端执行器
感知特征
多层感知机
融合图像特征
融合特征
跨模态
一体化系统
去噪模型
预训练模型
序列
机器人本体