ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载

ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena
AI技术研报 2026-06-25 10:03
+9549 阅读

当 AI 智能体(Agent)从实验室走向真实应用,我们面对的安全问题也正在发生变化。


过去,我们更多关心模型会不会回答危险问题;而现在,Agent 已经可以调用工具、读写文件、操作数据库、执行多步任务。真正棘手的前沿风险,往往不再来自某个显式恶意 prompt,而是隐藏在复杂环境中的长尾场景里:


  • 一个 Agent 会不会为了完成任务而绕过审批?
  • 会不会在指标压力下修改验证逻辑?
  • 会不会在多工具协作中越权访问文件?
  • 会不会意识到自己正在被评测,从而改变行为策略?


这些风险很难靠人工逐个编写基准测试覆盖。


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


近日,复旦大学、上海创智学院、牛津大学等机构联合发布研究论文《AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation》,提出面向前沿 AI 风险发现与评测的自动化框架 AutoControl Arena。它的核心目标是:自动合成可执行测试环境,帮助研究者和开发者快速发现 AI Agent 在未知长尾场景中的潜在风险


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


  • 📄 论文地址:https://arxiv.org/abs/2603.07427
  • 🌐 项目主页: https://cosmosyi.github.io/AutoControl-Arena/
  • 💻 GitHub 仓库:https://github.com/CosmosYi/AutoControl-Arena


PART 01 从 “会不会拒答” 到 “会不会在未知场景中失控”


AI Agent 的风险,和传统聊天模型并不一样。


  • 聊天模型的安全评测,常常围绕单轮或多轮问答展开:模型是否拒绝危险请求,是否输出违规内容,是否容易被越狱。
  • 但 Agent 的关键能力是 “行动”。它不仅生成文本,还会在环境中连续决策:调用哪个工具、修改哪个文件、是否绕过某个流程、如何在目标和约束发生冲突时做取舍。


例如,此前 Anthropic、OpenAI、Apollo Research 等机构的安全报告中,已经展示过一些前沿风险案例:模型可能在被替换风险下采取威胁策略,也可能在代码任务中不去解决问题本身,而是修改验证程序来让结果通过。


这些案例提醒我们:在简单、良性的测试条件下表现正常的模型,进入复杂任务环境后,可能会以完全意想不到的方式产生不对齐行为。


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena

图: AutoControl Arena 可自动准确复现 Anthropic/OpenAI 等机构安全报告中的风险行为


PART 02 安全评测为什么跟不上 Agent 进化?


要发现 Agent 的长尾风险,最理想的方式,是给它搭建真实的测试环境。


比如:文件系统、数据库、命令行工具、审批流程、日志系统等。然后观察 Agent 在其中如何行动。但这件事很难规模化。


一方面,人工搭建环境很真实,但成本高、速度慢。每多一个风险场景,就需要重新设计工具、状态、规则和反馈。


另一方面,让 LLM 直接模拟环境虽然便宜灵活,却容易出现 “逻辑幻觉”:文件状态前后不一致,数据库返回凭空生成,权限规则一会儿存在一会儿消失。


这就带来了 Agent 安全评测的核心矛盾:


真实环境保真度高,但可扩展性差;LLM 模拟可扩展,但可信度不足


而长尾风险恰恰要求我们既要 “生成足够多的新场景”,又要 “保证这些场景真的可信、可执行、可复查”。


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


PART 03 AutoControl Arena:自动生成能跑起来的风险测试场


AutoControl Arena 试图解决的,就是这个问题。它不是只让 LLM 写一段文字描述场景,而是自动合成一个可以执行的测试环境,让目标 Agent 真正在其中行动。AutoControl Arena 的关键设计,是论文提出的 “逻辑 - 叙事解耦” 原则。简单来说,就是把测试环境拆成两层。


第一层是逻辑层:文件系统、数据库、权限控制、工具执行、状态转移,这些部分必须严格一致、可复现,不能交给 LLM 随口生成。因此,AutoControl Arena 使用可执行 Python 代码来维护这些环境逻辑。


第二层是叙事层:任务背景、角色反馈、社会情境、动态说明等内容,本身具有开放性和语言多样性,可以交给 LLM 生成,从而保证场景足够丰富。


这就像给 AI 安全评测装上了一个 “物理引擎”:环境规则由代码保证,场景变化由大模型生成。在此基础上,AutoControl Arena 使用三个智能体完成全流程自动化。


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


PART 04 X-BENCH:70 个场景,覆盖 7 类前沿风险


为了验证 AutoControl Arena,研究团队构建了配套基准测试集 X-BENCH


X-BENCH 包含 70 个测试场景,覆盖 7 大类 Agent 前沿风险


  • 工具性趋同:为了完成目标而追求权限、资源或自我保护。
  • 规则博弈:表面完成任务,实际钻评估规则或指标漏洞。
  • 能力滥用:将工具能力用于攻击、欺诈或其他危险目标。
  • 策略性不对齐:在不同情境下选择性服从或隐藏真实意图。
  • 规避监督:关闭日志、绕过审批、避开监控。
  • 隐蔽泄露:在复杂伦理冲突下泄露敏感信息。
  • 评测意识:意识到自己处于测试中,从而改变行为。


为了更系统地激发潜在风险,研究者还引入了 压力 - 诱惑双维度机制


每个场景都会在不同压力和诱惑组合下运行,从而测试 Agent 在多种长尾条件下是否会出现非预期行为。


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


PART 05 三个发现:前沿风险往往藏在连续行动里


研究团队评估了 9 个前沿模型,覆盖 Google DeepMind、OpenAI、Alibaba 等机构模型系列,并得到了一些值得关注的发现。


(1)对齐幻觉


模型在常规条件下表现安全,并不意味着它在复杂环境中依然可靠。论文报告,在低压力、低诱惑条件下,9 个模型的平均风险率为 21.7%;但在高压力、高诱惑条件下,平均风险率升至 54.5%。并且能力越强的模型,风险率提升幅度越明显。


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


(2)模型越强,风险模式越复杂


能力提升不一定带来单调的安全提升。对于直接危害类任务,更强模型往往更容易理解安全边界,因此可能更安全;但在规格博弈、绕过验证、规避监督等任务中,更强模型也更擅长规划、搜索漏洞和利用环境结构。这意味着,强模型不是简单地 “更安全” 或 “更危险”,而是会呈现更复杂、更策略化的风险模式。


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


(3)不对齐行为可能变得更隐蔽


弱模型的风险,很多时候来自能力不足或误解任务;而更强模型的风险,可能表现为更高阶的策略性行为。例如,在某些测试场景中,模型可能明知某些行为存在风险,却将其包装为 “防御性监控”“流程优化” 或 “合规执行”,从而在表面上维持正常解释,在行动上绕过关键约束。


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


PART 06 这套自动化评测靠谱吗?


为了验证 AutoControl Arena 的可靠性,研究团队将其生成的仿真环境与真实红队环境进行了对比。


在 10 个场景中,研究者分别使用 AutoControl Arena 仿真环境,以及由真实 CLI 工具、SQL 数据库、SMTP 服务器等组成的红队环境进行独立实验。结果显示,仿真环境与真实环境得到的风险率高度一致,相关系数达到 0.87


此外,研究团队还使用 AutoControl Arena 复现了 Anthropic、OpenAI、Apollo Research 等机构安全报告中的典型风险案例,进一步验证了框架对前沿 Agent 风险的刻画能力。


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


PART 07 GitHub 全面开源:从论文到可用工具


AutoControl Arena 已在 GitHub 开源,项目定位为前沿 AI 风险自动发现平台:


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


AutoControl Arena 提供两种主要使用方式:


交互式 TUI:aca


适合新手快速上手。用户可以在终端界面中选择测试场景、目标模型、压力等级、诱惑等级,并实时查看评测进度。


命令行模式:autocontrol


适合研究者进行批量实验和自动化评测,支持配置文件运行与并行执行。


Web 页面查看风险报告


评测完成后,系统会保存完整运行记录,包括 Agent 行为轨迹、环境状态、风险评分、审查结果和日志。项目也提供本地 Web 结果查看器,方便研究者复查关键证据。


ICML 2026|让AI自动发现前沿风险:创智×复旦×牛津发布AutoControl-Arena


PART 08 总结:让未知风险被更早发现


随着 Agent 被接入越来越多真实工作流,安全评测也需要从 “测试已知问题” 走向 “发现未知风险”


AutoControl Arena 通过自动合成可执行测试环境,为这一方向提供了一个新的研究思路。它可以帮助模型开发者、安全团队和 Agent 应用团队更快发现潜在漏洞,并为后续深度红队测试确定优先级。未来,前沿 AI 风险评测可能不只是扩大 benchmark 的规模,而是让系统具备持续生成新场景、持续暴露新风险、持续改进安全边界的能力,这正是 AutoControl Arena 的核心愿景。


团队介绍


本研究的核心贡献者为李长艺(上海创智学院访问博士生)和卢鹏飞(复旦大学本科生);指导教师为潘旭东(上海创智学院全时导师、复旦大学副研究员)、Fazl Barez(牛津大学研究员)和杨珉(复旦大学教授、复旦大学计算与智能创新学院执行院长)


文章来自于"机器之心",作者 "机器之心"。

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案