强大的机器人视觉语言模型,可在消费级硬件上运行
SmolVLA是一款紧凑型(450M)开源视觉-语言-动作模型,专为机器人技术打造。该模型基于社区数据进行训练,可在消费级硬件上运行,且性能优于更大规模的模型。项目同步开源了代码与训练方案。