增强空间感知能力的视觉语言动作大模型设计方法

正文

推荐专利

申请号：CN202510881094

申请日期：2025-06-27

公开号：CN120708029A

公开日期：2025-09-26

类型：发明专利

摘要

本发明公开了增强空间感知能力的视觉语言动作大模型设计方法，该方法包括：获取多帧任务场景图像，输入二维图像编码器和视觉几何引导Transformer VGGT编码器，提取图像特征及时序空间嵌入，将自然语言指令编码为语言嵌入表示，通过交叉注意力机制融合图像特征与语言嵌入，输入预训练大模型生成跨模态表征，结合机器人本体状态信息，将融合特征输入动作专家模块输出动作控制序列，驱动机器人执行操作任务。由此，避免额外信息对原有预训练模型的破坏，相较于原有预训练视觉语言模型和动作专家的组合结构，增强利用多视角图片信息，从而在任务执行过程中对空间深度有更强的理解能力，提高任务成功率，实现了更高效、更鲁棒的机器人感知与决策一体化系统。

技术关键词

模型设计方法交叉注意力机制图像编码器视觉自然语言末端执行器感知特征多层感知机融合图像特征融合特征跨模态一体化系统去噪模型预训练模型序列机器人本体

增强空间感知能力的视觉语言动作大模型设计方法

站点导航

APP 下载