摘要
本发明公开了一种基于强化学习的视觉‑语言‑动作模型的恢复方法,涉及机器人学习领域,本方法针对视觉‑语言‑动作模型,即VLA模型,在资源受限的低算力设备上的部署问题,提出一种三阶段方法,首先对VLA模型应用结构化剪枝,紧接着采用一个性能恢复阶段,结合监督微调SFT与强化学习RL,以恢复模型在下游任务上的有效性,最后进行量化调整,以进一步优化模型的精度和效率。本方法使得机器人端资源受限的设备上也能正常运行VLA模型,推动了VLA这一技术的落地应用。
技术关键词
恢复方法
视觉
有效性
阶段
受限
机器人
参数
资源
解码器
中间层
精度
内存
决策
策略
标记
代表
算法
动态
框架
通道