SmolVLA

访问

436

1735

强大的机器人视觉语言模型，可在消费级硬件上运行

SmolVLA是一款紧凑型（450M）开源视觉-语言-动作模型，专为机器人技术打造。该模型基于社区数据进行训练，可在消费级硬件上运行，且性能优于更大规模的模型。项目同步开源了代码与训练方案。