大模型从“回答问题”走向“完成任务”,正在面临以下瓶颈:
面向Claw Agents的数据、训练和评测都比传统environment training更难。
为了解决该问题,中国人民大学、至知研究院等最新提出ClawGym——
一个面向Claw Agents的一体化框架,系统连接数据合成、模型训练与可靠评测。

ClawGym包含三个核心部分:
目前,团队已经开源ClawGym的五项核心资源,覆盖评测、模型与训练流程。
具体则包括ClawGym-Bench评测数据、评测代码、ClawGym-Agents模型检查点、训练数据和训练代码。
团队表示,这是目前较为全面的OpenClaw训练与评测资源。
随着OpenClaw等Personal Agent环境的发展,大模型正在从“回答问题”走向“完成任务”。
但相比传统的文本推理、网页浏览或简单工具调用,Claw-style环境提出了一个更复杂的问题:
如何让Agent在一个真实、状态化、可交互的工作区中持续行动,并最终完成用户交代的任务。
在这类环境中,Agent面对的不再是一道静态题目,也不只是一个简单的工具接口,而是一个由文件、目录、脚本、表格、配置、日志和外部工具共同组成的复杂工作区。
它需要在多轮交互中读取文件、运行命令、分析数据、修改文档、生成报告,并根据环境反馈不断调整自己的行动。
更重要的是,Claw-style环境本质上是一个高度交互的执行脚手架。
Agent的每一步操作都会改变工作区状态,后续决策又依赖这些中间状态。
任务是否完成,不取决于Agent是否说“我完成了”,而取决于最终工作区是否真的被正确更新:文件是否生成、路径是否正确、表格计算是否准确、输出格式是否满足要求、多个文件之间是否保持一致。
也正因为如此,面向Claw Agents的数据、训练和评测都比传统environment training更难。
现有工作大多关注静态问答、网页任务、代码修复或特定工具调用场景,而针对这种开放式、长程、多产物、可验证的个人工作区环境,系统性的任务构造、轨迹采集、模型训练和可靠评测仍然相对缺乏。
正是在这样的背景下,团队推出了ClawGym。
它的目标不是单独提供一个任务集或一个训练脚本,而是为Claw-style Personal Agents构建从任务生成、环境执行、轨迹学习到能力诊断的完整闭环。
具体而言,团队认为Claw-style任务更接近真实办公场景:
用户给出目标,Agent需要在本地工作区中持续操作,直到最终状态满足要求。
而这带来几个关键挑战。

ClawGym-SynData是整个框架的数据基础,包含13.5K个可执行任务。
其构建流程包括四个环节:
任务生成→资源准备→验证设计→质量评估。

为了让ClawGym中的任务既贴近真实用户需求,又能够在工作区中被真正执行和验证,ClawGym采用了两条互补的任务合成路线:persona-driven top-down synthesis和skill-grounded bottom-up synthesis。
第一条路线是persona-driven top-down synthesis,也就是从“用户想做什么”出发生成任务。
ClawGym首先构建不同的用户画像、工作场景和原子操作组合,例如文件整理、数据分析、报告生成、配置修改等。随后,模型会基于这些要素生成具体任务指令,使任务不再只是抽象 prompt,而是更接近真实用户在办公、开发、数据处理等场景中的实际需求。
第二条路线是skill-grounded bottom-up synthesis,也就是从“系统能做什么”出发生成任务。
ClawGym会从OpenClaw skills中提取可复用的工具能力,并通过技能标注、过滤和组合,判断哪些skills适合用于任务合成。这一路线保证生成的任务不是空泛的想象,而是与OpenClaw的实际工具能力和执行边界对齐,能够真正落到可运行的工作区操作中。
两条路线的作用互为补充。
前者提供用户意图、场景覆盖和任务多样性,让任务更“真实”;后者提供工具能力、执行grounding和可操作性,让任务更“可做”。
二者结合后,ClawGym能够生成一批既符合真实工作流,又能在环境中执行、检查和评分的Claw-style tasks。

Claw-style任务不能只有指令,还需要一个可操作的初始工作区。
只有当任务所需的文件、字段、数据和目录结构真实存在时,Agent才能在环境中执行操作,而不是停留在文本回答层面。
因此,ClawGym会为每个任务自动生成轻量级mock workspace,包括Markdown、JSON、CSV、YAML、配置文件、日志和原始记录。这些资源会围绕任务目标构造,提供执行过程中需要读取、分析、修改或引用的内容。
通过这种方式,每个任务都拥有明确的初始状态和可控的数据条件。Agent需要基于工作区中的真实文件完成任务,最终结果也可以根据文件路径、字段、数值、约束和产物内容进行稳定验证。
在验证设计上,ClawGym采用code-based verification + rubric-based verification,同时覆盖客观正确性和主观质量要求。
二者结合后,ClawGym不仅能判断Agent有没有完成任务,还能进一步判断它是否真正做对、做好。
这使任务结果不只是“看起来合理”,而是能够经得起结构、内容和质量层面的验证。
有了任务数据之后,ClawGym通过OpenClaw black-box rollout收集真实交互轨迹,而不是重新实现一个简化agent loop。
这样可以更真实地保留Agent在OpenClaw中的行为模式,包括上下文管理、工具调用和环境反馈。
轨迹收集后,ClawGym会进行聚合、清洗和筛选:恢复完整多轮轨迹,去除heartbeat、cron等无关系统提示,过滤异常轨迹,并根据verifier score保留高质量样本。
最终筛选出的轨迹平均包含13.00轮交互、18.67K tokens、15.82次工具调用和3.25种工具类型。
这说明,训练数据不是短回复或单步工具调用,而是包含规划、文件检查、工具执行、环境反馈和中间调整的多轮agentic supervision。
基于这些轨迹,ClawGym对Qwen3系列模型进行multi-turn SFT,得到ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B。训练时对环境反馈进行loss masking,使模型重点学习自身生成的推理、决策和工具调用。
此外,ClawGym还探索了sandbox-parallel RL。每个任务在独立sandbox 中运行,并直接使用code verifier提供outcome reward。

实验显示,无论从原始Qwen3-4B-2507-Instruct 出发,还是从经过SFT的ClawGym-30B-A3B出发,RL都能带来进一步提升。
ClawGym-Bench由200个经过严格筛选的任务组成,用于评估Claw Agent在真实工作区中的执行能力。
相比用于训练的数据,ClawGym-Bench对任务质量和评测可靠性提出了更高要求。
它不仅要求任务本身真实、可执行,还要求评测结果能够稳定反映模型之间的能力差异。
为此,ClawGym-Bench采用难度感知筛选,优先保留那些既具有挑战性、又能区分不同模型表现的任务。
同时,每个候选任务都会经过“人类-大模型协同审查”:前沿大模型先对任务指令、输入资源、验证器和评分标准进行诊断式检查,识别潜在歧义、不可执行要求或验证漏洞,再由人类审查者完成最终确认。
在任务覆盖上,ClawGym-Bench 涵盖六类典型工作区场景:
因此,ClawGym-Bench的作用不只是给模型一个最终分数。
它还可以进一步分析模型在不同工作区能力上的表现差异,例如是否能正确理解文件状态、选择合适工具、完成长程执行、遵循细粒度要求,并生成符合用户需求的最终产物。

实验表明,ClawGym-SynData能够稳定提升不同规模开源模型在Claw-style任务中的表现。
经过训练后,ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B在ClawGym-Bench上分别达到47.73、50.24和56.82,均超过对应的基座模型。
其中,ClawGym-30B-A3B还超过了规模更大的Qwen3-235B-A23B,说明高质量Agent交互数据能够在一定程度上弥补模型规模不足。
ClawGym-Bench也展现出良好的区分能力。不同模型的平均得分从Qwen3-8B的35.02到Claude-4.7-Opus的77.81,形成清晰的能力梯度。
而且,ClawGym-Agents只使用ClawGym-SynData训练,却能在外部基准PinchBench上取得明显提升。
其中,ClawGym-30B-A3B达到86.00,说明模型学到的并不是合成任务模板,而是可迁移的工作区执行能力。

Claw Agent面对的是一个持续变化的用户工作区。已有文件、目录结构、脚本输出、中间状态和最终产物,都会影响任务是否真正完成。
因此,关键能力不是简单地“会调用工具”,而是能否把工作区一步步更新到满足用户要求的最终状态。
这主要体现在三点。
从工具调用到工作流组织。 Claw Agent需要把文件探索、信息读取、脚本执行、结果检查和产物验证串联成完整流程,而不是完成孤立的工具调用。
从单步执行到长程恢复。 在真实工作区中,路径错误、文件缺失、命令失败很常见。强模型能够把错误作为反馈继续推进任务,弱模型则容易在连续错误中偏离目标。
从生成答案到验证产物。 Claw Agent的输出不是一段文本,而是CSV、JSON、报告、脚本等工作区产物。这些产物必须满足字段、公式、过滤规则和跨文件一致性等细粒度要求。
因此,Claw-style任务考察的不是单一语言能力,也不是简单工具调用能力,而是Agent在状态化工作区中持续执行、恢复错误并保证最终产物正确的能力。

ClawGym的核心价值在于,它将Claw Agent的数据构建、能力训练和可靠评测连接成一个完整闭环。
ClawGym关注的不只是模型能否“说出答案”,而是模型能否在工作区中完成可检查、可验证的任务。
对于Personal Agent来说,这正是从对话能力走向执行能力的关键一步。
关于至知创新研究院。它立足人工智能前沿,是由深厚产业智慧驱动的新型科研组织,核心破解尖端研究与规模化产业落地的产学研难题。他们以原创性底层算法与下一代AI架构攻坚为基石,聚焦前沿技术突破、高复杂度场景落地、全球产学研生态协同三大核心目标。
至知以产业一线核心瓶颈锚定研究方向,为顶尖科研人才提供纯粹的探索环境。他们深耕AI+科学计算、前沿科技等核心垂直领域,以卓越的学术能力与极致的工程精神,深耕技术本源,释放AI全维度深层价值。
项目主页:https://github.com/ClawGym
文章来自于微信公众号 "量子位",作者 "量子位"
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0