研究者提出了FAST,一种高效的动作Tokenizer。通过结合离散余弦变换(DCT)和字节对编码(BPE),FAST显著缩短了训练时间,并且能高效地学习和执行复杂任务,标志着机器人自回归Transformer训练的一个重要突破。
来自π,伯克利和斯坦福的研究者近期提出了FAST,一种为VLA模型设计的高效动作Tokenizer。
FAST旨在解决传统动作Tokenization方法在处理精细任务时面临的挑战,为VLA模型在更复杂、高频的机器人控制任务带来了显著改进。
将FAST与π0 VLA结合,在1万小时的机器人数据上对π0-FAST进行训练,效果与最先进的扩散VLA相当,训练时间最多缩短5倍。
论文链接:https://arxiv.org/abs/2501.09747
想训练Transformer来控制机器人,具体该怎么做?
Transformer输出的动作块是一小段机器人动作序列,例如手臂关节角度。对于不太精细的系统,其动作序列可能包含3-5个动作;而对于高频灵巧机器人,动作序列可能会有20-50个动作。
用合适的方法表示这些动作,对于高效学习非常重要。
现有的VLA模型常用简单的离散划分方法,这种方法对于简单的任务是可行的,但对于需要高精度和高频控制的复杂精细技能,就不太管用了。
扩散方法或流匹配通常展现出更好的性能,如π0模型。然而,扩散方法的训练时间会更长。
那么,如何表示这些动作,才能在保持灵活性和精确性的同时,快速地训练Transformer呢?
为解决这个问题,Physical Intelligence提出一款专为机器人动作设计的新型Tokenizer「FAST」。
借助FAST,研究者开发出了一种高效的机器人动作Tokenization方法,让机器人技术能够与自回归Transformer训练流程无缝衔接。
FAST能把动作像语言一样,用离散Token表示。FAST提升了从大规模互联网数据预训练的迁移能力,增强了机器人执行语言指令的能力。
借助FAST,首次实现在DROID数据集上训练出只需通过简单的自然语言命令,机器人就能在新环境中零样本执行多种操作任务。
FAST通过在训练前压缩原始动作块,能显著提升基于灵巧机器人数据的策略训练和推理效率。
FAST使用了一种基于离散余弦变换(DCT)的压缩算法,来提高VLA模型的训练速度。DCT是一种频域变换,因简洁和计算高效,常用于压缩算法,如JPEG图像压缩、MP3音频的编解码。
研究者利用离散余弦变换(DCT)设计了FAST,它是一种快速且高效的机器人动作Tokenization方法。下图展示了从原始机器人动作到动作token的步骤。
首先,对输入的动作进行归一化。完成归一化后,每个动作维度分别应用离散余弦变换(DCT)。
研究者用字节对编码(BPE)压缩DCT矩阵,BPE是训练LLM常用的压缩算法。将DCT和字节对编码(BPE)结合,就能把原始动作块压缩成数量少但更密集的动作Token。
通常每个动作块包含30-60个Token,和以前的动作Tokenization方法相比,压缩率提高了10倍。
基于FAST,研究者发布了FAST+,这是通用的机器人动作Tokenizer,用100万个真实机器人动作序列上训练而成。
FAST+ Tokenizer能高效地标记各种机器人动作序列,包括单臂、双臂和移动机器人。FAST+能当黑盒Tokenizer,对各种机器人的动作序列编码,涵盖多样的动作空间和控制频率。
借助这个Tokenizer训练自己的策略,只需三行代码即可实现:
研究者将FAST和π0模型结合进行测试。
以往的离散化VLA模型只能处理简单操作任务。但有了FAST,就能借助它训练自回归Transformer策略,完成像折叠衣物、收拾餐桌、打包购物袋这类高难度的精细任务。同时,模型的训练速度快了5倍。
下面是一些能用FAST策略解决的任务。
借助FAST,研究者首次在DROID数据集上训练出通用策略,能在新环境中对多种指令实现泛化执行。
DROID数据集是一个由全球大型机器人研究联盟历经两年收集的开源数据集,包含多样化的场景和机器人操作任务,涵盖从大学建筑到真实家庭等多种场景。
到目前为止,尚未有一种方法能在DROID数据集上训练出通用策略,在新环境中零样本执行语言指令。
但借助FAST,研究者实现了这一目标。快来看看它的实际表现!
在美国三所大学(加州大学伯克利分校、斯坦福大学、华盛顿大学)的测试环境中,都能直接完成简单的操作任务。
即便在执行任务失败,它也会基于常识去尝试解决问题。
虽然这一策略尚不完善,却为我们描绘了未来的图景:未来能直接下载并使用通用机器人模型,就像今天使用语言模型一样。
表中展示了FAST Tokenizer与先前方案在压缩率方面的比较。
FAST对所有数据集的输入动作序列都实现了显著压缩,对高频动作数据的数据集压缩效果更明显。
基于100万条真实机器人动作序列训练的通用动作Tokenizer FAST+与之前的VLA相比显著提高了训练效率。
FAST+ Tokenizer在各类机器人数据集上有良好的压缩性能,且在各种机器人形态、动作空间和控制频率范围中都展现出有效性。
研究者借助FAST Tokenizer成功训练出首个自回归通用策略π0-FAST。它基于之前的π0模型,沿用相同的模型架构和训练数据集。
研究者把π0-FAST与最先进的扩散π0 VLA进行对比。
总体而言,自回归π0-FAST模型的表现与扩散π0模型相当,即便在最具挑战性的洗衣折叠任务上也是如此,且所需计算量显著更少。
因其采用简单的自回归离散化方法,π0-FAST的收敛速度比扩散π0模型快得多,所需的训练GPU小时数减少5倍。
对于最先进的VLA训练,通常需数千个GPU小时,计算资源减少5倍至关重要。
基于FAST的方法可在复杂的机器人任务上训练自回归VLA,而先前的方法在这些任务上效果不佳。
研究者对于自回归VLA训练的前景感到十分兴奋。然而,当前的模型存在一个较为显著的缺点,即推理速度较慢。π0-FAST采用自回归解码的方式,其速度明显比不上π0所使用的流匹配解码。
未来,LLM中广泛应用的加速离散自回归Transformer模型推理的技术,或许能为提高VLA推理速度带来启发。
参考资料:
https://www.pi.website/research/fast
https://arxiv.org/abs/2501.09747
https://huggingface.co/physical-intelligence/fast
文章来自于“新智元”,作者“英智”。