DeepMind 联合创始人、2024 年诺贝尔化学奖得主 Demis Hassabis 曾谈到,他一直将 AI 视为推动知识前沿的重要工具。AI 可以帮助科学家处理复杂数据、发现隐藏模式,也可能在未来参与更深层的科学探索。
要走向这样的目标,科学智能体在回答科学问题之外,更需要有能力处理科学工作流。在真实的科学场景中,研究者需要检索数据库、调用专业软件、执行计算、分析结果,并根据反馈不断修正方向。科学推理不只发生在语言空间中,也发生在工具调用、环境反馈和错误恢复的过程中。
这也对评测提出了新的要求。评估科学智能体,需要观察它能否在复杂工具环境中稳定、有效地完成多步任务。正是在这一背景下,复旦大学 NLP 实验室提出了 SciAgentGym,一个专为多步科学工具使用而设计的智能体环境,用于评估模型在复杂科学工作流中的执行能力、反馈处理能力和任务完成能力。

SciAgentGym 为 Agent 提供了一个可交互、可执行、可反馈的科学环境。
这个环境由四类基础设施组成:专业工具库、文件系统、科学数据库和 Python 解释器。模型在任务过程中可以调用科学工具、执行代码、查询数据库,也可以读取环境返回的结果、报错信息和中间文件。每个任务都拥有独立的工具注册、文件系统和执行历史,从而让模型真正处在一个科学工作空间中。
为了让这个环境能够承载复杂科学任务,SciAgentGym 在设计上强调了三个原则。
首先是 Type Safety,也就是类型安全。科学工具之间并不是随意连接的。一个工具可能输出分子式,另一个工具需要蛋白结构;一个工具返回矩阵,另一个工具只能接收三维向量。SciAgentGym 为工具定义明确的输入输出类型,使环境能够检查每次调用是否合法,也能判断工具之间是否可以自然衔接。
其次是 Reproducibility,即可复现性。模型的每一次工具调用、每一个中间结果和每一次环境反馈,都会被记录成结构化轨迹。最终评测得到的不只是一个答案,还包括模型完成任务的全过程。
第三是 Extensibility,也就是可扩展性。SciAgentGym 中的工具按照学科和标准协议组织,便于后续接入新的领域工具。论文中,研究团队将 RDKit、ASE、SciPy、BioPython、PyMatGen 等成熟科学计算包封装成各种工具,再按照计算、分析、可视化和查询等功能类别进行组织,并通过自动化单元测试筛选工具质量。
SciAgentGym 的设计旨在为科学智能体搭建一个能够承载科学工作流的执行环境。在这样的环境中,模型需要理解工具依赖、管理中间状态、利用环境反馈,并把多个步骤组织成一条连续的科学任务流程。

图:SciAgentGym 总体框架。左侧为科学环境与工具系统,右侧展示 SciAgentBench 评测、Agent Interface 交互和 SciForge 训练流程。
在基础环境之后,下一个关键问题是:当前大模型在复杂科学工作流中的能力边界在哪里?
SciAgentBench 正是为此设计的评测集。它包含 259 个任务、1,134 个子问题,覆盖物理、化学、材料科学和生命科学四个领域。这些任务经过了一套筛选与验证流程。因为研究团队希望保留下来的任务不能仅靠模型记忆或常识直接回答,而且需要模型在 SciAgentGym 环境中持续调用工具、读取反馈,并逐步推进任务。
为了刻画不同任务的复杂度,SciAgentBench 将任务划分为三个层级。
L1 是基础任务,不超过 3 步,主要考察模型能否完成较短的工具调用流程。
L2 是中等复杂度任务,需要 4 到 7 步,模型必须开始组合多个工具,并管理更多中间状态。
L3 则是长程任务,需要 8 步以上,更接近真实科学工作流。模型不仅要规划多个步骤,还要在执行过程中处理反馈、修正错误,并保持整体任务目标不偏离。
在整个 SciAgentBench 中,L2 和 L3 任务合计占 79%。其重点主要在于考察模型能否在更长的任务链条中保持稳定。
此外,约 65% 的任务包含多模态输入,例如分子结构图、光谱数据、相图和实验图像。这一点也很贴近真实科学研究的场景:研究者在解决问题时,往往不会只看一段文字,而是需要同时理解图像、表格、实验数据和工具返回的中间结果。
在评测指标上,论文使用了两个主要指标:Success Rate 和 Success Weighted by Path Length。
前者衡量模型是否成功完成整个任务;后者则进一步考虑完成任务的效率。若模型在完成任务时反复尝试无效路径、调用不必要的工具,即便最终答对,它的效率得分也会下降。科学智能体不仅要能得到答案,还要能以相对更加快速直接的方式得到答案。

图:在 SciAgentBench 下的测试结果。
实验结果显示,工具确实能带来帮助。总体来看,模型在接入工具后,平均成功率从 23.3% 提升到 28.3%。这说明,在真实科学任务中,外部工具依然非常重要。仅靠模型内部知识,很难替代科学计算、数据库查询和专业软件带来的精确能力。
但更值得注意的是,模型一旦进入长流程任务,性能会明显下降。以 GPT-5 为例,它在带工具设置下的整体成功率为 41.3%。但如果按任务难度拆开看,L1 成功率为 58.8%,到了 L3 则下降到 34.6%。这种下降并不是某一个模型的个例,而是几乎所有模型都会遇到的问题。所有模型平均来看,L1 成功率为 47.4%,L3 只有 16.4%。
这说明,当前模型已经具备一定的工具使用能力,但要稳定完成长程科学工作流,仍然非常困难。短流程任务中,模型只需要做出少数几次正确决策;而在长流程任务中,它需要连续完成多个环节:理解问题、选择工具、设置参数、读取反馈、转换格式、继续执行。任何一个环节出错,都可能影响后续所有步骤。

图:SciAgentBench 下的模型行为分析。进一步从工具调用效率、反馈利用能力和长程错误恢复三个角度分析模型在科学工作流中的表现。结果显示,当前模型的瓶颈并不只是 “会不会调用工具”,而是能否在多步执行中有效理解环境反馈、调整行动路线,并持续推进任务。
论文还观察到一个很有意思的现象:工具调用次数多,并不代表模型更会使用工具。
有些模型会频繁调用工具,但成功率并不高。原因在于,它们并没有真正理解工具返回的反馈,而是在报错后不断重复相似操作,或者只是机械地调整参数。相比之下,一些更强的模型虽然调用次数更少,却能更有效地利用中间结果,较快判断下一步应该怎么做。
这也揭示了科学智能体的一个关键能力,即有效使用环境反馈。
在真实科学工作流中,工具反馈往往承载着非常重要的信息。报错可能提示输入格式不对、参数缺失,或者工具选择本身不合适;中间结果也可能提示当前路线是否有效,是否足以支持下一步推理。模型如果不能读懂这些反馈,就容易在长流程中反复试错,甚至陷入无效循环。
这样的结果强调了虽然当前大模型已经具备一定的科学工具使用能力,但距离稳定、可靠地完成真实科学工作流,仍有明显差距。
在 SciAgentBench 评估模型在长程科学工作流中的表现之后,论文进一步提出 SciForge,用于构建面向科学工具使用的训练数据。
SciForge 的基本思路是:科学智能体需要学习的不只是最终答案,还包括完成任务的过程。在真实科学研究中,一条工作流往往包含多个环节:选择工具、调用工具、读取中间结果、理解环境反馈,并在出错时调整下一步操作。
围绕这一点,SciForge 从科学工具之间的输入输出关系出发,构造可能的工作流,并将这些工作流放入 SciAgentGym 环境中实际运行。能够执行并产生有效结果的轨迹,会被保留下来作为训练数据。
这些轨迹不仅包含顺利完成任务的过程,也包含一部分错误与修正过程。例如,工具调用失败、参数设置不当、输入格式不匹配等情况,都会以环境反馈的形式出现在轨迹中。模型可以从这些数据中学习如何根据反馈调整后续操作,而不是只学习一条理想化的执行路径。
实验结果显示,基于 SciForge 数据训练后,SciAgent-8B 在 SciAgentBench 上达到 30.1% 成功率,超过了更大规模的 Qwen3-VL-235B-Instruct;SciAgent-4B 也达到 25.2%,相比基座模型有所提升。

图:SciForge 训练效果。随着训练轨迹数量增加,模型在工具增强任务中的表现持续提升;缺少错误恢复过程或使用非科学工具数据时,训练效果会受到影响。
这一结果说明,对于科学智能体而言,科学工具调用的过程数据非常重要。可执行轨迹为模型提供了关于工具依赖、数据精度、反馈利用等一系列科学工具调用的经验,使模型能够在训练中接触更接近真实科学工作的任务结构。
斯坦福研究者 Surya Ganguli 在谈到 AI 与科学发现时提到,AI 会推动新的科学发现,而科学应用对严谨性的要求,也会反过来推动更好的 AI。放在科学智能体的语境中,这一点尤其值得关注。真正进入科学研究场景后,模型面对的是海量的资料数据与无限开放探索的过程。
面向开放式科学发现,让模型先在具体科学工作流中学会可靠执行,再逐步提升它参与复杂科学研究的能力,可能是一条很有潜力的路径。我们期许未来的 AI 科学家能在这种交互中逐渐成形。
文章来自于"机器之心",作者 "机器之心"。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI