仅用三五条样本击败英伟达,国内首个超少样本具身模型登场,还斩获顶会冠军

AITNT
正文
资源拓展
仅用三五条样本击败英伟达,国内首个超少样本具身模型登场,还斩获顶会冠军
2025-10-17 15:28

国内首个少样本通用具身操作基础模型发布,跨越视觉语言与机器人操作的鸿沟。


具身智能领域终于要突破 “数据桎梏” 了吗?


相较于自然语言、视觉领域,具身智能的数据天然稀缺。真实世界的机器人操作往往涉及复杂的物理交互、实时反馈与环境变化,导致数据采集不仅成本高、效率低,并且还难以规模化。因此,现实中能达到数十万以及百万物理交互的数据集并不多见。


另外,当前的视觉 - 语言 - 动作(VLA)模型虽然已经具备了强大的语义理解能力,但在实际操作层面仍依赖大规模标注数据来弥补泛化能力的不足。


如何让具身机器人在极少样本下也能快速学习、准确执行、灵活迁移,成为决定它们真正走出实验室、进入工业生产与人机协作场景的关键因素。


近日,国内通用具身智能创企中科第五纪(FiveAges)正式发布新一代具身操作基础模型 FiveAges Manipulator-1(FAM-1),其核心架构源于团队入选 NeurIPS 2025 的《BridgeVLA: Bridging the Gap between Large Vision-Language Model and 3D Robotic Manipulation》,首次实现了大规模视觉语言模型(VLM)与三维机器人操作控制之间的高效知识迁移与空间建模融合。


特别地,该模型在少样本学习、跨场景适应及复杂任务理解方面实现重大突破,仅需 3-5 条机器人数据 / 任务即可完成精准具身操作学习,成功率高达 97% 并且全面超越 SOTA。基于该模型,团队斩获 CVPR 2025 具身操作竞赛冠军,击败国内外众多竞争对手。


FAM-1:从 VLA 到 BridgeVLA,

国内首个少样本通用具身操作基础模型


为了缓解缺少高质量操作数据的困境,切实提升跨场景、跨任务下的泛化性,中科第五纪以 BridgeVLA 为核心框架,构建首个少样本通用具身操作基础模型 FAM-1。


与传统的 VLA 架构相比,BridgeVLA 实现了以下两个方面的技术创新:


1.整合多类型数据,构建多维度的操作知识库,以二次预训练的方式挖掘 VLM 隐含知识,解决操作目标和场景理解不准确、泛化性差的问题;


2.利用三维热力图对齐 VLM 与 VLA 的输出与输入,通过 3-5 条非常少量的样本微调,解决视觉空间理解力弱、数据利用效率低的问题。


这些技术不仅在数个国际公开评测数据集上取得当前 SOTA 性能,还在仅有少量标注数据的真实开放场景下,稳定实现跨光照、跨场景、跨任务的泛化性


具体来说,FAM-1 是由知识驱动的预训练(Knowledge-driven Pretraining, KP)和三维少样本微调(3D Few-shot Fine-tuning, FF)两大核心模块组成:


知识驱动的预训练:目前大多数具身操作模型是基于非操作数据预训练的 VLM,仅能在一定程度上缓解操作目标和场景泛化的问题。这种跨域差异性的存在,导致模型无法真正发挥 VLM 在泛化性方面的巨大潜力。因此,中科第五纪利用从网络上收集海量图像视频数据并构建面向操作场景的知识库,然后对预训练的 VLM 进行二次预训练。通过挖掘和引导模型隐含的操作知识,对机械臂关键点位置和轨迹进行预测,进而逐步实现在操作场景下的跨域适应。


三维少样本样本微调:现有 VLM+VLA 架构大多是将三维视觉信息压缩到一维向量,然后再预测三维动作,形式上类似沙漏结构。这种架构中间的 “维度瓶颈” 让模型损失大量三维结构信息,导致需要依赖大规模有标注数据进行暴力拟合。因此,中科第五纪将 VLM 和 VLA 的输出和输入升维到三维热力图。这样在模型微调的过程中,不仅能充分利用三维空间结构信息,更显著降低了模型对于样本数量的依赖。


主要实验效果:

FAM-1 在国际基准中全面超越 SOTA


基于 BridgeVLA 的创新架构,中科第五纪将 FAM-1 在国际公开评测基准 RLBench、Colosseum 等与微软、MIT、斯坦福等顶尖团队工作进行了公开比较,大量实验结果验证了模型的优越性。


例如,在 RLBench 上,FAM-1 可以取得 88.2% 的操作成功率,远远超过 RVT-2、Act3D、3D Diffuser Actor 等 SOTA 模型 6% 以上,特别是在 “Insert Peg”、“Open Drawer”、“Sort Shape”、“Door Close”、“Hammer Strike” 等任务上成功率大幅领先,平均成功率大幅提升了 30% 以上。


仅用三五条样本击败英伟达,国内首个超少样本具身模型登场,还斩获顶会冠军


真机部署效果:

少样本下基础任务成功率 97%,挑战任务领先对比模型 30%+


中科第五纪还将 FAM-1 在真机上与 RVT-2(英伟达)、PI0(Physical Intelligence)、SpatialVLA(Shanghai AI Lab 等)等先进模型进行了全面对比,特别是在少样本情况下的基础任务(Basic)和挑战任务(Distractor、Lighting、Background、Height、Combination、Category)上的对比。FAM-1 在仅使用 3-5 条样本每个 Basic 任务的情况下,可以达到 97% 成功率,远超其它对比模型。


这些结果充分验证了中科第五纪在少样本实体部署方面的优势,尤其能够在不同干扰物体、不同光照条件、不同背景绝大多数复杂因素且极具产业化价值的能力下显著提升模型的泛化性。


仅用三五条样本击败英伟达,国内首个超少样本具身模型登场,还斩获顶会冠军


总结与展望:

致力于打造工业级通用具身智能体系


FAM-1 是面向机械臂操作的少样本通用基础模型,通过迁移多模态大模型隐含知识和建模三维空间结构信息,让机器人获得了前所未有的跨场景任务的泛化能力和少样本快速学习能力。


基于此,中科第五纪未来将继续深耕以下三大方向:


1.进一步面向操作场景,提升通用基础模型的泛化性、可靠性和适应性;


2.推动基础模型在工业场景下的更多应用;


3.面向导航场景推出通用基础模型。


此外,团队另一项成果 EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow 已被 ICCV 2025 接收,展示了从无标注人类操作视频中自监督学习操控策略的新路径,进一步展现了中科第五纪在具身智能核心技术上的系统性创新能力。这意味着未来机器人或可通过观察人类操作视频,自主学习操控策略,进一步降低应用门槛。


从定义具身大模型新标准,到发布国内首个少样本通用具身操作基础模型,中科第五纪的探索正推动具身智能从 “单点技术突破” 走向 “体系化落地”,为机器人真正走进工业生产、日常生活提供了技术支撑。


文章来自于微信公众号“机器之心”。


1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

添加客服微信openai178,进AITNT官方交流群
IOS下载
安卓下载
微信群