增强空间感知能力的视觉语言动作大模型设计方法

AITNT
正文
推荐专利
增强空间感知能力的视觉语言动作大模型设计方法
申请号:CN202510881094
申请日期:2025-06-27
公开号:CN120708029A
公开日期:2025-09-26
类型:发明专利
摘要
本发明公开了增强空间感知能力的视觉语言动作大模型设计方法,该方法包括:获取多帧任务场景图像,输入二维图像编码器和视觉几何引导Transformer VGGT编码器,提取图像特征及时序空间嵌入,将自然语言指令编码为语言嵌入表示,通过交叉注意力机制融合图像特征与语言嵌入,输入预训练大模型生成跨模态表征,结合机器人本体状态信息,将融合特征输入动作专家模块输出动作控制序列,驱动机器人执行操作任务。由此,避免额外信息对原有预训练模型的破坏,相较于原有预训练视觉语言模型和动作专家的组合结构,增强利用多视角图片信息,从而在任务执行过程中对空间深度有更强的理解能力,提高任务成功率,实现了更高效、更鲁棒的机器人感知与决策一体化系统。
技术关键词
模型设计方法 交叉注意力机制 图像编码器 视觉 自然语言 末端执行器 感知特征 多层感知机 融合图像特征 融合特征 跨模态 一体化系统 去噪模型 预训练模型 序列 机器人本体
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号