在 M2 系列模型发布后的几个月,我们收到了大量热心用户的反馈和建议,这促使我们进一步加速模型的迭代效率。除了更加认真工作之外,我们能找到的唯一途径就是开启模型和组织的自我进化。MiniMax M2.7 是我们第一个模型深度参与迭代自己的模型。

M2.7 能够自行构建复杂 Agent Harness,并基于 Agent Teams、复杂 Skills、Tool Search tool 等能力,完成高度复杂的生产力任务。例如,在研发M2.7的过程中,我们基于模型构建强化学习 Harness 中的数十个复杂的 skills,更新自己的 memory,驱动模型自身的强化学习,并基于结果优化强化学习过程和 Harness,开启模型的自我进化。
基于上述能力,M2.7 也在显著加速我们自身向一个 AI Native 组织的进化。

01
构建模型自我进化智能体
在最开始,我们分享一个我们内部让 M2 系列模型自我进化的实践,这也是对模型Agent 能力边界的探索。
Agent Harness 通常依赖复杂的Skills、记忆系统和其他组件来提升模型对不同工作环境的适应能力。在此基础上,我们在 M2 的早期版本中,将其引导为一个研究型 Agent 框架——它能够与不同的研究项目组进行交互和协作。该系统覆盖了数据流水线、训练环境、评测基础设施、跨团队协作、持久化记忆——让研究员可以驱动它来交付更好的模型。研究 Agent 驱动着产出下一代模型的迭代循环。研究员在每一层引导方向,模型在每一层负责构建。
以一个 RL 场景为例:研究员从一个实验想法出发,与 Agent 展开讨论。Agent 协助进行文献调研,持续跟踪预设的实验规格,完成数据流水线及其他对接工作,并启动实验。实验运行期间,它会自动监控和分析实验状态,并自动触发日志读取、问题排查、指标分析、代码修复、合并请求以及冒烟测试,识别并配置那些细微但关键的变更。这些工作过去可能需要来自不同团队的多位同事协作完成,而现在研究员只需在关键决策和讨论时介入。这大幅加速了问题发现和实验迭代,从而更快地交付模型。在这个场景下,M2.7 能够胜任 30-50% 的工作流。

我们在迭代过程中也意识到,模型自主迭代 harness 的能力也至关重要。我们内部的 harness 会自主收集反馈,建立内部任务的评测集,并基于此不断迭代自己的 Agent 架构、Skills/MCP 实现和记忆机制,来更好和更高效的完成任务。
举个例子,我们让 M2.7 优化一个内部脚手架上模型的软件工程开发表现。M2.7 全程自主运行,执行“分析失败轨迹 → 规划改动 → 修改脚手架代码 → 运行评测 → 对比结果 → 决定保留或回退”的迭代循环超过 100 轮。
这个过程中 M2.7 发现了针对模型的有效优化:系统性搜索温度、频率惩罚、存在惩罚等采样参数的最优组合;为模型设计更具体的工作流指引(如修复后自动搜索其他文件中的相同 bug 模式);在脚手架的 Agent Loop 中添加循环检测等优化。最终在内部评测集上效果提升 30%。
我们相信,未来的 AI 自我进化会逐步向完全自动化过渡,包括完全自主的协调数据构建、模型训练、推理架构、评测等等。我们用 M2.7 参与了 MLE Bench Lite 的22 个机器学习任务测试,几乎囊括了研发的所有环节。
我们设计和实现了一个简易的脚手架来引导 Agent 进行自主优化,核心的模块包括短时记忆、自反馈以及自优化三个模块。具体来讲,Agent 完成每轮迭代后会形成一个短时记忆文件,同时对当前轮次的结果进行自反馈,从而给下一轮次提供潜在的优化方向,下一轮次基于所有历史轮次的记忆及自反馈链进行下一步的自优化。
我们总共测试三次,每次有 24 小时来迭代进化,从下图中能够看到 M2.7 随时间不断取得更高的性能。最好的一次取得 9 枚金牌,5 枚银牌,1枚铜牌。三次平均是 66.6% 的得牌率,此成绩仅次于Opus-4.6 (75.7%)、GPT-5.4 (71.2%),和 Gemini-3.1 (66.6%) 持平。

02
真实的软件工程
在编程等代码生成类任务上,M2.7 更深入地打磨了真实软件工程所需的编程能力,覆盖日志分析与 Bug 定位、代码重构、代码安全、机器学习、安卓开发等方向。
以线上最常见的线上生产环境故障调试为例——这类任务不仅需要生成代码,还需要很强的综合推理能力。面对我们实际的生产环境告警,M2.7 能关联监控指标与部署时间线做因果推理,对轨迹采样做统计分析并提出精准假设,主动连接数据库执行验证根因,定位到代码仓库中缺失的索引迁移文件,甚至知道用非阻塞建索引先止血,再提 MR。
从可观测性分析、数据库专业知识到 SRE 级别的决策判断——这不只是一个会写代码的模型,而是一个真正理解生产系统的模型。相比传统的人工排障流程,基于 M2.7,我们已多次将线上生产系统故障的恢复时间缩短到三分钟以内。

线上生产环境故障调试
在单项编程能力上,M2.7 已具备国际一线模型水准。 在涵盖多种编程语言的 SWE-Pro 中,M2.7 以 56.22% 的正确率追平 GPT-5.3-Codex;而在更贴近真实工程场景的 SWE Multilingual(76.5)和 Multi SWE Bench(52.7)中展现出更显著优势。
这一能力同样延伸到了端到端的完整项目交付场景。 在 Repo 级代码生成基准 VIBE-Pro 上,M2.7 得分55.6%,几乎与 Opus 4.6持平 —— 这意味着无论是 Web、Android、iOS 还是 Simulation 类需求,都可以直接交给 M2.7 完成。
更值得关注的,是对复杂工程系统的深层理解。 在对系统认知要求极高的 Terminal Bench 2(57.0%)和 NL2Repo(39.8%)中,M2.7 同样表现稳健,进一步印证了它不只擅长代码生成,更能深入理解软件系统的运行逻辑与协作流程。

基于 M2.7 生成的 WildGuard 演示网页
为了提升开发效率,一个比较重要的特性是原生的 Agent Teams (多智能体协作)。Agent Teams 对模型提出了范式级要求:角色边界、对抗性推理、协议遵循、行为分化——这些无法通过提示词,必须内化为模型的原生能力。
Agent Teams 场景下,模型需要稳定锚定角色身份、主动挑战队友的逻辑与伦理盲区、在复杂状态机中自主决策。下面是我们内部使用的一个做产品原型开发的 Agent Teams,里面包含了做产品原型的一个最小组织。

Agent Teams 协作模拟演示
03
专业办公
除了软件工程外,Agent开始在办公场景中变得越来越有用,我们认为这是两个核心能力:
我们测试了在 Finance 领域的专业水准,与上代模型相比,模型的能力提升显著。例如,在 Finance 领域一个阅读研报并建模公司未来营收的场景,M2.7可以自主阅读公司的年报与业绩沟通会纪要,交叉比对多篇研报,独立设计假设并构建营收预测模型,再基于模版产出PPT和研究报告——像一个初级分析师一样理解、判断、输出,并在多轮交互中自我修正。从业者的评价是:产出物已经可以作为初稿直接进入后续工作流程。
下面是一个关于台积电的例子。
任务:基于台积电年报和业绩沟通会信息,构建台积电的营收模型,读取多个研报,设计对应的假设,基于最新的信息对台积电营收建模,然后基于 PPT 模版产出 PPT ,并写一个 Word 文档研究报告和 Excel 图表。








① PPT 报告演示(可上下滑动)









② Word 调研报告(可上下滑动)

③ Excel 透视报表
最近 OpenClaw 爆火为代表的 Agent 社区蓬勃发展,我们很高兴看到 M2 系列模型帮助到了社区的繁荣。我们基于 OpenClaw 中的常用任务,构建了一个评测集 MM-Claw,涵盖个人学习规划,到办公文档的处理与交付、定时的专业信息调研与投资建议、代码开发与维护等工作与生活中形形色色的真实需求。M2.7 在这个测试中达到了接近 Sonnet 4.6 的水平,正确率是62.7%。
04
互动娱乐
在 OpenClaw 等 Agent 脚手架的使用过程中,不少用户在使用 Agent 完成工作的同时,还希望模型具备比较高的情商和复杂人设保持能力。在有人设的情况下,用户不再只是让模型机械完成任务,而是开始自然于与 Agent “相处”。 这促使我们思考,产品与交互设计、内容创作、甚至娱乐体验的构建,都可以被 AI 原生驱动的可能性。我们认为这会让 Agentic 模型的使用从单纯的生产力能进一步拓展到互动娱乐。为此,我们在 M2.7 中极大加强了人设保持和对话能力。
基于此,我们构建了一个 Agent 交互系统 OpenRoom,它将 AI 互动置入一个万物皆可互动的 Web GUI 空间。在这里,对话即驱动,实时产生视觉反馈与场景交互,角色可以主动地与环境交互。我们认为这个框架扩展性较高,能够随着模型 Agentic 能力的提升和社区的共建持续进化,探索出更多人与 Agent 之间全新的交互方式。为了促进这个领域的创新,我们已将这个原型项目开源 (这个里面的代码大部分也是 AI 写的):
项目地址: github.com/MiniMax-AI/OpenRoom
立即体验: openroom.ai

MiniMax M2.7 已在 MiniMax Agent 与开放平台上全量上线,期待用户和开发者朋友们能在 MiniMax M2.7 上探索出更多有趣场景。
MiniMax Agent:agent.minimaxi.com
API 服务:platform.minimaxi.com
Coding Plan 订阅:platform.minimaxi.com/subscribe/coding-plan
文章来自于微信公众号 “MiniMax 稀宇科技”,作者 “MiniMax 稀宇科技”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0