对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

AI资讯 2026-06-16 14:16

+7974 阅读

当智能逼近临界点。

Hi 我是 Koji，上周六我在 MiniMax Dev Meetup 上主持了一场圆桌讨论，并录制了一期现场播客。嘉宾包括：

🧑🏻‍💻 IO 闫俊杰：MiniMax 创始人 CEO

🧑🏻‍💻 张佳圆：Multica 创始人

🧑🏻‍💻 何涛：DeerFlow 核心负责人

🧑🏻‍💻 虞扬：上市金融公司技术负责人

整场对话持续 60 分钟，随后又进行了 60 分钟的观众问答。本文为现场对话的完整实录。

本期内容的视频和音频播客将在本周内发布于「十字路口Crossing」的小宇宙和 @Koji杨远骋 的小红书、视频号、BiliBili、Youtube

🚥

IO 闫俊杰：“我们现在已经非常接近这个临界点了”

👦🏻 Koji

Hello，IO！最近你很少公开亮相，但今天这场 Minimax Dev Meetup 你非常重视，刚才我看你一直不停地和现场开发者们交流。因此，想问你的第一个问题是：这个活动为什么对你如此重要，让你愿意花这么多时间深度参与？

👨🏻‍💻 IO 闫俊杰（MiniMax 创始人＆ CEO）

其实应该是我感谢大家花时间来分享。比如旁边的何涛，他就是一个非常优秀的开源项目 DeerFlow 作者，他们的项目 Star 数应该已经有7 万；Multica 的佳圆也给了我们很多帮助建议。

今天我们的活动是面向开发者。两年前，我问过梁文锋：你们要不要做 AI Coding，他说不做。

因为当时大家的共识是，全中国会写代码的人可能只有 100 万到 200 万人，这似乎不是一个足够宽广的市场。

但现在显然变了。AI Coding 确实能让更多普通人拥有生产力，它的核心在于最开始有一批真正热爱、愿意动手去干的人。

我希望能把这个活动变成一个持续性的事情，把火种传播给更多人。

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

👦🏻 Koji

从 MiniMax M1 到 M3，我们看到了非常多的突破。你觉得哪些突破是符合预期的？哪些突破是还没有达到预期的？

👨🏻‍💻 IO 闫俊杰

我觉得通用消耗量是一个比较客观的指标。

坦白说，M1 模型的最终效果其实不够好，通用消耗量也很低。但我们在研发 M1 时，第一次跑通强化学习的那一刻，确实体验到了那种“后背发凉、瘫坐在椅子上”的经典震撼。

去年下半年，大家最关心的评测是 LLMArena，在那个时候我们就非常明确：我们只做 Coding 和 Agent。

内部有很多的质疑，为什么我们不管对话场景？但是我们这么做了。

M2 我们原计划一天消耗一亿 Token 我们就满意了，但是到 M2.7 的时候，我们突然跑出了超前 10 倍的突破。

至于 M3，我们定了一个更大的目标。虽然还没有完全实现，但从消耗量的角度看已经超出了预期。

从能力上来说，我们也有没达预期的部分。比如 M2 时我们就想实现多模态，但失败了；当时也希望它能在编程里直接充当主引擎，同样没有实现。

但 M2 的幸运在于，后来出来了 OpenClaw 和各种各样的 Agent，它在市场中找到了自己的生态位。

到了 M3，我们的核心目标是让大家可以无限制、不关心成本地使用 Sonnet 和 Opus 级别的模型。一旦这个目标达成，加上整个行业大盘的增长，通用消耗量将达到一个非常可观的量级。

我们现在已经非常接近这个临界点了。

Multica: 不再寄希望于单一模型的完美

👦🏻 Koji

佳圆，在 Multica 内部的 Loop Engineering 实践中，刚才你提到用了 MiniMax M3 。在实际研发中，你认为 M3 的表现有哪些长处和短板？

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

🧑🏻‍💻 张佳圆（Multica 创始人）

我们日常的工作里有大量可以 Pipeline 化的场景。

在实际应用中，并不是所有场景都需要用最高级的模型。我们自己团队内部，每个人手里都有好几个 Claude Code 账号，再加上 Codex 和 Cursor，每个月光是个人的 Token 消耗可能就高达几千美金。

所以，我们目前在做的一个尝试是：不再寄希望于单一模型的完美，能不能设计一个系统，把不同模型、不同 Agent 的能力聚合起来，用系统来拟合单一模型的缺陷？

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

比如 M3 有时会比较啰嗦，Thinking 时间较长，给出的结果不一定完全正确。这种情况下，我们可以让 M3 作为 Coding 模型，但同时引入像 Opus 或是 GPT 这样的模型来做 Review 或者做它的 Mentor。

实践证明，这种系统的拟合效果非常好，它能在 Token 消耗和最终产出质量之间，找到一个绝佳的平衡。

这只是我们早期的实验，但我坚信，未来公司里肯定需要考虑 Token Cost，如何让不同的工作由不同的模型去完成，会是一个非常关键的课题。

DeerFlow：用开源，打下“极度昂贵”的价格

👦🏻 Koji

接下来想请教何涛。今天的 DeerFlow 拥有 7 万 Star，和最开始的版本相比已经有了巨大不同。请给大家介绍一下当下的 DeerFlow，以及是什么原因让它如此受欢迎？

👨🏻‍💻 何涛（开源项目 DeerFlow 核心负责人）

这个问题是我第一次代表团队在公开场合回答。

先说句大白话，为什么能火？

我们其实也没有刻意追求出原因。很多时候，开源项目 Go Viral 就像是上帝握着你的手写下了一行代码，或者上帝握着你的嘴说出了一句话。比如你在 X 上分享了 Claude Code 写的一段代码，被人转发，然后它就突然火了。

实际上，DeerFlow 有两个身份。

第一，它是一个开源项目。我们在 2025 年时发现 Deep Research 这样的任务非常贵，你得先充一个 200 美金的 ChatGPT Pro 订阅才能勉强用几次，我们觉得这“极度昂贵”的属性太不合理了。开源必须得把价格打下来，而且我们还要用中国的模型去打个样。

我们最初的初衷是：想用自己的方式，把桌面端要解决的问题一条龙解决。当时我们在大公司上班，日常工作就是写报告、画图表，然后把报告生成像 Koji 那样优质的播客，最后因为我们很多人都有小孩，甚至希望能把它一键生成动画片或配乐。

在这里我必须表扬 MiniMax Token Plan。我们在 Day 0 就接入了它，多模态太有魅力了。每个人的日常工作就是一个多模态的工作。

如果反推 DeerFlow 一开始做对的点就是：我们坚决去完成桌面工作者所有的场景。哪怕一开始是残缺的、会被人喷，那我们也必须去直面。

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

第二，今天的 DeerFlow 已经变成了一个社区。除了 7 万 Star 以外，最动人的数据是，我们现在有超过 1K 的 Contributor，除了南北极，几乎覆盖了所有的陆地版图。经常有人用各种我们看不懂的语言来提 Issue。

如何用 Agent 去管理这样一个庞大的开源社区，也是我们现在不断探讨的方向。

现在代码量大了，也有人吐槽我们是“屎山”代码。怎么去清扫屎山？这也是今天来 DevDay 能够和各位开发者交流的意义。

降低金融门槛：AI 不仅是过滤信息

👦🏻 Koji

这确实是所有成功的开源项目都最头疼的事情。最近，OpenClaw、NanoBot 等项目也纷纷表达了不得不引入 Agent 的紧迫感。

接着想请教虞扬。在互联网金融这个垂直领域，作为一家上市公司，你们目前在怎么应用 AI 或 Agent？哪些场景已经产生出了直接的商业价值？

👨🏻‍💻 虞扬（金融公司技术负责人）

金融行业的用户有一个特点：普遍不擅长表达。我们的大多数用户在打开应用时，其实根本不知道自己今天想干什么，但他们知道最终目标是赚钱，这是很明确的事情。

除此以外，他很难具体表达核心诉求。比如最常见的选股场景，用户问得最多的问题就是：“帮我选几只个股。”如果是在传统场景下，不管是你问我，还是我问你，我们很难直接回答这个问题。

我也观察了同类厂商的做法。当你问到某只个股时，它更多的是帮你去全网搜索、做信息聚合。但聚合完之后，就没有然后了。这其实是一个很大的问题。

在这个层面上，大家能做的第一步只是“筛选信息”，以此来降低用户获取信息的门槛。

而我们尝试做的是第二步：降低专业理解的门槛。我们在数据陈列中有很多专业术语，比如 TTM是什么，这个东西是大了还是小了？大部分用户真的不懂，你原封不动地告诉他，他听完依然没有概念。

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

所以 AI 应该解决的问题是：不仅告诉他这个数字是多少、为什么是这样，还要告诉他这个数字对他的投资究竟有什么影响。

👦🏻 Koji

问一个简短而直接的问题：作为一家上市的金融公司的技术负责人，你会让 AI 直接帮你炒股吗？

👨🏻‍💻 虞扬

由于合规原因，我不能交易股票。

但实话实说，我们内部有一套完整的回测机制。我们生成的每一个预测回答，内部都会去做高精度的回测。

虽然我们向用户输出的公开版本绝对不能带有任何投资建议，但我们在内部版本上运行回测，来验证大致的胜率。

于我个人而言，我对我们跑出来的胜率和数据是无比自信的。

👦🏻 Koji

既然如此有信心，那如果你突然发现自己的工资已经远远不如跟着模型投资而赚到的钱，你要怎么办？

👨🏻‍💻 虞扬

哈哈，这是一个很有意思的问题。

炒股跟单纯的大模型推理不一样，它不仅仅是一个文本预测问题。它需要正确的信息，正确的个人画像，正确的分析状态，而且这些内容都是实时变化的。

它需要两步：第一，去预测接下来可能的发展方向，判断好坏，这很重要。

但更重要的是第二步：当这个事情真正发生之后，你该如何执行？

这个比单纯告诉你会怎么发展要重要得多。

模型与 Agent：相爱还是相杀？

👦🏻 Koji

下一个问题想请教 IO。你怎么看大模型和 Agent 的关系？未来还会有 Agent 吗，还是只剩下基础模型？

👨🏻‍💻 IO 闫俊杰

回想去年这个时候，坦白说，当时我自己也完全想不到现在的模型会变成什么样。因为去年我们还在死磕 M1，那时既没有 OpenClaw，Claude Code 也只有非常少的用户。

按照这个规律，明年会怎么样，现在确实很难预测。

这就是 AI 行业神奇的地方：一年经历的事，等价于其他行业好几年的积累。

在这个过程中，模型的进步和 Harness 的进步不是互斥的，而是共同进步。比如，如果最开始没有 Claude Code，Anthropic 模型可能也不会这么火。

反之，如果最开始 OpenAI 没有做出类似 GPT-5.5 的底层能力，Codex 这样复杂的 Agent工程其实也运转不起来。

所以这两者是相互拉动的关系。

我们可以把“模型”和“Harness”都看作是实现更高智能的手段。虽然模型越来越强，但我们依然应该假设智能的终极目的是为人类服务。

在这个前提下，模型和 Harness 就是我们并行的两种手段。

👦🏻 Koji

确实，这让我想起计算机科学家 Alan Kay 的那句名言：预测未来最好的办法是去创造它。

刚才 IO 提到，MiniMax 10T 参数的模型是必须要训练成功的。在这个过程中，最大的卡点会在哪里？

👨🏻‍💻 IO 闫俊杰

其实它并没有什么不可逾越的物理卡点。它最大的卡点是需要时间，需要大量的经验和实验积累。

AI 现在已经变成了一个庞大的产业。成为一个产业意味着，这里已经没有哪个技术鸿沟是绝对无法跨越的。

核心挑战在于为了把它做出来，需要极其繁琐的工程实验和脚踏实地的积累。

比如，我们需要和在座的各位坐在一起，去一点点分析我们的模型到底该优化什么，什么东西需要变得更好。这完全是一个积累的过程。

👦🏻 Koji

具体需要积累的是什么？是数据、新算法，还是其他的工程要素？

👨🏻‍💻 IO 闫俊杰

模型提升一代，参数量通常需要大 3 倍或 5 倍。

大家知道，Scaling Law 它的外推范围是有限的，顶多外推几倍。如果你的模型规模直接扩大 10 倍，你会发现以前很多外推经验会失效。

一旦外推失效，很多实验结论就不一定对，训练模型就会变成开盲盒。所以，这个事情只能一代一代往上做。

现在美国的模型比国内的大概大 10 倍左右，这意味着两代的差距。国内每家公司要想追上去，基本上都要再提升两代：第一阶段先把 3T 的模型真正做好、做实；第二阶段基于第一阶段积累的经验，再去攻克 10T 的大关。

在这个过程中，每一次规模升级，训练工程量、对算力的要求、训练效率以及网络结构都会发生巨大的变化。

例如在这次 M3 里，计算量虽然降下来了，但 KV Cache 依然比较大。所以在下一个版本，我们会进一步优化、压榨它的 KV Cache，让推理表现更好。

同时，更大的模型意味着需要更庞大的参数量。一般情况下，模型训练所需的高质量数据量大约是其参数量的 20 倍。一个 10T 的模型，意味着需要 200T 的数据。但事实上，全世界并没有这么多现存的高质量数据。

随着模型变大，也更容易拟合噪声，这意味着模型越大，对数据质量的要求也会越高。

数据需求量大、质量要求高，同时实验 Scaling Law 外推的跨度又极大，这是一个非常庞大的系统性挑战，我们只能一代一代往外走。

但好在，我们非常笃定，在过去几个月里我们是进步速度最快的那一个。

面对这个极具系统性的挑战，我坦白说比较忐忑，但我认为我们能达到。

👦🏻 Koji

一开场你提到咱们进步速度最快时，全场响起了掌声。我也很好奇，这个“快”的 Benchmark 是什么？衡量维度有哪些？

👨🏻‍💻 IO 闫俊杰

对比国内任何一个模型在当下的智能水平，不管用什么维度的评测来定义，和它们在 3 个月前、6 个月前的表现相比，我们模型能力的提升比例是最高的。

Vibe Coding 时代：决定“不做什么”往往更重要

👦🏻 Koji

接下来想请教佳圆和何涛。在完全依赖 AI 去做一个复杂的软件项目时，我们到底该如何去打磨，才能把软件工程的实践做得更好？

🧑🏻‍💻 张佳圆

我先来分享一下我的想法。

现在 AI Coding 已经被商品化，人人都可以写代码，让 Agent 帮自己去实现。但实际上，“Vibe Coding”这件事在历史上并不新鲜。

历史上第一代 Vibe Coding 的用户其实是产品经理，他们过去就在干这件事，只不过他们驱动和调度的对象是程序员，反馈的 Loop 比较长。

现在人人都能 Vibe Coding 了，相当于人人都变成了产品经理。

但从产品经理的角度看，衡量一个产品经理是否优秀，从来不是看他做了多少事情，或者提的需求够不够多。

更核心的判断标准在于：他如何去决策一件事情要不要做，甚至“不做什么”在现在的节点上更为重要。

因为当可以做任何事情的时候，你决定不做什么的决策标准才是最关键的。

另外，软件工程发展了几十年，有很多经典的软件工程理论。在座如果有一些比较资深的程序员，应该都读过那本 1000 多页的《Code Complete》。

它核心讲的就是，在一个复杂度上来的组织或项目里，如何避免架构失控和屎山代码。

如何让复杂项目不变成屎山，这是大家研究了几十年的命题。

比如我们现在的开源项目 DeerFlow、Multica，每天都有大量的 Contributor 提交代码。

我们的做法是：核心维护者会牢牢定义产品的 Roadmap、品位，明确做什么、不做什么。

同时，我们通过实验和用户数据去衡量每一步决策，而这部分全局的 Context 是外部 Contributor 普遍缺乏的。

因此在维护开源项目时，我们会去和外部开发者对齐这部分 Context。这是我们的一些经验。

👨🏻‍💻 何涛

佳圆分享得很好。我这里先来一个暴论：Vibe Coding 绝不是 Vibe Engineering。

写代码是一项系统性的工程，而不单单是 Coding 本身。所以我很不希望别人说“你是个码农”，而更应该自豪于自己是一个“软件工程师”。

Engineering 定义的从来不是一个一次性交付的内容，而是一个可以长期交付且持续有生命力的产品。

目前的主流测试集比如 SWE-Bench 或是 SWE-Bench Pro 中，都是去看模型一次性解决问题。

这很容易导致模型为了完成单次任务“使命必达”。就像一个努力的人，你告诉他一个任务，他努力了很久但是成果很一般，而且当你拿到这段代码后，会发现后续根本无法在它上面继续做二次开发。

所以，在 Coding 领域的 Benchmark 上还有很多工作要做，比如去定义一个懂长期工程、懂得如何在长周期任务中维护 Codebase 的 Agent。这就是要把人类对长期维护项目的 Taste ，真正注入到模型里。

另一方面，这也是对人类的要求。这一代的模型太有诱惑力了，它很容易让你把它当成一根无所不能的魔法棒。

模型犯了错，你跟它说一句，它就顺着你的意思去改。你以为它变聪明了，但它往往只是在通过各种讨巧的方式迎合你，哪怕你的思路可能是有偏差的。

在这种情况下，我们人反而需要回归一些古典、严谨的工程底线。这里我推荐先哲们写的《Clean Code》，里面的最佳实践已经总结得非常详尽了。

现在项目大到我们已经没有精力去人肉 Review 每一行代码，但我自己的做法是，把这些最佳实践比如 Google、Amazon 的 Best Practice 沉淀并融入到 Agent 的 Context、Harness 以及工程偏好中。

最后，我非常反感一种说法：“这个 Bug 是 Agent 提交的，所以不能怪我。”只要是用你账号提交上去的代码，透支的就是你的信用，折射的是你的责任心和工作态度。

我们要把 AI Coding 当作一门严谨的工程学去对待，去持续迭代，才能变得更好。

一切技术爆发都会经历这个阶段。就像当年有了电，大家以为所有事情都迎刃而解了，但实际上我们依然走了很长的路。

我们要转变 Mindset，多一些耐心，把 AI 视作新的工具，而不是魔法棒。

从心态上的转变才能慢慢的根治一些问题。

👦🏻 Koji

我也很好奇，在 MiniMax 内部，大家目前是怎么看 AI Coding 的？

👨🏻‍💻 阿岛（MiniMax 总架构师）

我们确实同样面临着 Vibe Coding 导致代码复杂度指数级上升的问题。

最近我去阿里分享，他们的系统更为庞大复杂，有几百个微服务，而且多是交易性质。

他们最大的痛点是，在 Vibe Coding 时代，以前一个人只能改一个代码仓库，现在一个人可能一瞬间就改动了十几个仓库，提了一个巨大的 MR 。

代码功能确实实现得飞快，但由于验证完全没有跟上，导致没人敢把这些代码上线，QA 部门也面临崩溃。

我最早带团队的时候，对代码整洁有极强的强迫症，团队提交的每一行代码我都必须亲自 Review。我当时的要求是项目必须符合我的 Taste，结构必须足够清晰。我当时看代码，基本一眼就能把 Bug 揪出来。

但在今天的 Vibe Coding 语境下，这种精细化的人工 Review 几乎是缺失的。生产力的上限被极大提升，无论是 Harness 的编写还是模型训练，都在全力加速生产，但我们在验证、交付和 Review 上的能力，不论是模型还是 Harness 系统，其实都还远远没有跟上。

我的观点是，当项目达到一定复杂度后，我们应该在验证、交付上，投入和研发生产同等量级的研发精力。否则，项目必然会走向死亡崩溃。

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

去年在 Claude 4 的阶段，大家可能觉得项目到几千行代码就已经失控了。现在模型能承载十几万行的代码量，但它终究还是会崩溃，因为它的 Context 是有极限的，且人类的工程直觉，某种程度上也是机器很难替代的。

我们现在 Post-training 系统也是完全基于 Vibe Coding 在推进。它的工作方式是提交一个 Issue 上去，它就会分阶段去自动执行并最终搞定，但中间也会遇到同样的代码失控问题。

我们也在尝试解决这些问题，比如引入 E2E 测试、Benchmark 校验、其他内容进行校验等手段。

但最重要的还是确立一套这个项目的 Principle：明确什么是可以干的、什么是不符合 Rule 的。而且必须要让 Agent 能够去实现，因为人是看不过来的。

为什么 Anthropic 需要核物理学家？

👦🏻 Koji

刚才 IO 也提到了一个关于数据的问题。我们注意到 MiniMax 上个月启动了“10x”项目，邀请各行业的专家合作甚至入职。

刚才 IO 你的分享里也提到了一个转变：去年这个时候，MiniMax 对训练数据的理解可能只是单纯的“数据标注”，而现在开始尝试找各个领域的“专家大哥”来带路。

能跟我们分享一下这中间的理念转变是如何发生的吗？

👨🏻‍💻 IO 闫俊杰

AI 的核心是生产力，模型在里面本质上是提供工具，AI可以让思考和验证的过程更快。

但它最终所面对的，依然是行业内最真实的业务痛点。这些痛点，只靠模型或者算法研究员无法解决的。

我们在做 Coding 模型时就深深体会到了这一点，算法研究员负责搭建模型迭代的框架，但对于如何做精细的评测、怎么对工程分类、如何构造真实的开发测试环境，真正的软件工程师理解得透彻得多。

在 Coding 的时候，只要两个角色，而且 Engineer 只负责最关键的评测和 case。而在更多的领域需要三个角色的协作：算法开发工程师以及该行业中真正资深的“专家”。既然前两个角色的合作在 Coding 上已经跑通，现在的逻辑就是顺理成章地加入第三个角色。

我的这套逻辑，也可以在国外的一流团队身上得到印证。比如我们研究过 Anthropic 的招聘，他们团队里除了 Researcher 和 Engineer 之外，还招了大量的经济学家、心理学家、甚至还有核物理学家。

为什么需要核物理学家？因为他们在做模型越狱测试和对齐时，需要专业人士来测试模型提供的方法是否会被真正用于制造核武器。

半年前我们可能还无法完全理解为什么需要招聘这些背景的人，但现在的理解已经非常深刻。我们真的需要这些专家和我们的研究员坐在同一个房间里。

我们的“10x”项目正在积极地和这些优秀的垂直领域专家沟通，在座的不少朋友也参与了进来。

接下来，我们计划在网络安全、金融、法律等深度垂直领域做更重的研发投入，深度也会比现在深很多。

2026下半年，All in 什么？

👦🏻 Koji

最后一个问题，其实我最想问的是让在座各位分别推荐一只个股，但我估计这个大概率得不到答案，哈哈哈。

所以一个折中的问题是：在 2026 年接下来的这半年里，有什么事情是你们认为最想去 All in 的？

👨🏻‍💻 虞扬

个股就不推荐了。其实我想说两件事。

在人工智能和大模型时代，在垂直应用场景中，有什么东西是 AI 绝对替代不了的？

我觉得其中一点是“陪伴”。

在新的时代里，绝大多数人其实都有着强烈的陪伴和情绪价值需求。这其实是大模型可以发挥巨大价值的领域。

在我们金融领域也是一样——投资总有赚钱的时候，但更有亏钱、甚至亏的时候更多。在这种极为脆弱的时刻，陪伴价值不可替代。

第二是关于我们内部的金融落地场景。最开始我们做 Agent 的思维是，想方设法去“限制”模型的发挥，不让它去做一些奇怪或者越界的决策。

但现在，随着 Agent 技术的飞速迭代，我们近期的策略是在探索如何主动去“引领”模型。让模型开始具备自主思考的能力，让它在更具创造性的领域去帮我们重构工作。

👦🏻 Koji

何涛，你下半年想 All in 什么？

👨🏻‍💻 何涛

刚刚 IO 和阿岛已经透露了足够多方向，所以个股的暗示我想大家都懂了。

我个人平时会写一个专栏叫《How AI Shapes Our Society》。

我最近有一个极其切身的体会：现在的 AI 让很多人变得内耗与焦虑。

我能明显感觉到，在 2026 年，国内的模型不管是 MiniMax 的 M 系列，还是 DeepSeek 等国产大作已经跨过了某个关键奇点，具备了真正走进普通人家里的能力。

MiniMax 这一次在多模态上的更新，就像模型长了眼睛，玩法也多出了很多。

分享一个我个人的故事：我老婆前阵子有一段时间非常焦虑、还经常掉头发，她去看中医。期间她去问了国内 DAU 最大的某款 Chatbot，和它聊了好多。虽然当时看似缓解了焦虑，但按照它的法子调理之后头发反而掉得更严重了。

这导致她极度焦虑，开始向我埋怨，说我们这个行业害人害己，还害到了家属头上。

为了证明自己，我帮她搭建了一个属于她的 LLM Wiki。我把她这些年做过的所有体检报告、单据、做过的检查、吃过的药甚至和之前那个 Chatbot 的聊天记录，全都导了进去。

然后，我把 Codex 直接接入了她的飞书，跟她说：“以后别用那个 Chatbot 了，就用我给你做的，相信你老公。”

我就引导她：“你可以问它，下一次去见中医时，你该带什么问题去问医生，医生可能会问你什么？”她照着这个方法去用，后来和医生的沟通变得顺畅了太多。

所以我认为：普通人都是有机会利用 AI，让家人、身边人、让更多的事情变得更好。不是用 Vibe Coding 替代某个工种，而是让好的 idea 能够绽放，让身边的人感到温暖，从冰冷的软件工程发现人类社会的温暖。

🧑🏻‍💻 张佳圆

我只投资我自己和我的公司，所以没有个股建议。

如果说下半年要深入探索的事，我是一个坚定的“AI 降临派”。在和 AI 深度协作的这几年里，我越来越清晰地感知到，AI 未来的智力水平是一定会完全超越人类的。

基于这样的预判，如果再往外推，未来所有人或多或少都会面临同样的处境：你未来可能已经不再是和同类在竞争，而是在和 Agent 去竞争。而在知识水平和智能上，人类在未来是完全无法抗衡 AI 的。

当这种技术拐点来临时，社会该是什么样？这是非常值得去思考的事。

另外一个是，因为人天生有思维惰性。随着 AI 越来越强，把事情完全交给 AI、把思考外包给 AI 的现象会非常普遍。

我现在的做法是：我和 AI 一起去做探索，但我会坚持把思考这个最重要的部分留给自己。

👦🏻 Koji

最后请 IO 压轴。你也是“AI 降临派”吗？

👨🏻‍💻 IO 闫俊杰

现在的 AI 本质上依然是一个“黑盒”。

即便是我们这些从业者，其实也很难预判它一两年后会演变到什么地步。我们只知道它会继续疯狂地进步。

其实我有时候也不完全理解，为什么会有 Scaling Law，单纯靠人类可能已经很难去理解这件事了。

早在 10 年前我读博士的时候，就看过相关的学术论文，基本结论是：当人工神经网络的深度超过 3 层时，我们现在的数学工具就已经无法去分析它的收敛性了。

但是，这并没有妨碍这个行业进步至今。

如果说我最关心、也是最希望花时间去探索的，是一个非常本质的底层命题：我们什么时候才能让 AI 帮助人类去理解 AI 本身？

只有这样， AI 的安全性边界、以及 AI 到底能走多久等一系列问题，才可能真正找到答案。

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

👦🏻 Koji

现在有看到任何这方面的信号吗？

👨🏻‍💻 IO 闫俊杰

有的。比如近期的很多生命科学研究发现，大脑跟神经网络之间有很强的相关性。

虽然大脑结构里不会做矩阵乘法，但其内部某些脑区模块的工作方式有类似于矩阵的概念；并且大脑内有些机制可以等价于梯度的反应传播；大脑中的海马体和 DeepSeek 对记忆的设计也很像。

在一年前，我们可能是不太能理解安全的重要性。现在，我们可能不太能理解可解释性的重要性，但是我现在越来越知道它的重要性。

我相信，AI 本身的可解释性，最终也一定要靠 AI 来帮助人类去亲手揭开。

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

现场观众提问

👦🏻 现场观众

我在金融科技行业工作，也会自己用 AI Coding。

大家都发现 M3 的思考链比较长，未来版本是否会考虑增加类似“思考维度”的参数化配置？因为很多其他大模型是提供这类参数的。

另外，虽然目前支持 Non-Thinking 模式，但我实测发现，即使关闭了思考，对 Token 的节省和整体时间的缩短依然相对有限。

M3 自己分析给出的结论是，即使关闭了思考，它也可能会把思维过程直接放进回答里，导致整体耗时和 Token 数量没有明显变化。想请问这两方面未来会有什么改进？

🧑🏻‍💻 临屿（MiniMax 大模型后训练工程师）

M3 大家反馈较多的问题就是思考过程比较冗长。我们在下一版中会做针对性的优化。

短期内我们暂时不会提供思考等级配置。但在下一个版本中，整体的思考规划和思考效率应该会有显著的提升。

👨🏻‍💻 IO 闫俊杰

关于思考冗长的问题，我们做过归因，主要有两个原因。

第一是推理速度。M3 刚上线时确实比较慢，当时 TPS 只有 20 左右。现在的 TPS 已经提升到了 70，首包延迟在 2 秒左右。

下周我们应该会优化到 TPS 80。在日常使用的国内主流模型里，这是非常快的水平。同时，首包延迟我们预计也能从目前的国内 2 秒多、海外 3 秒，优化到 1 秒多，这将会是国内第一档。

第二是思考长度。我们分析了线上运行轨迹和内部评测，其实 M3 的思考长度并没有超过 Opus，用户感觉慢的核心原因还是刚上线时的推理速度比较慢。

对于思考的算力预算，我们下一版会大幅压缩无效的思考轨迹。

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

至于更细的分档，我们认为目前没有太大必要。大部分用户的使用场景很明确：要么选择 non-thinking 追求极速，要么开启 Thinking 追求接近海外顶级模型的技术能力。我们希望能先专注于把这两个模式优化到极致。

另外，Non-Thinking 模式也还有很大提升空间。即使是海外大模型，在不进行思考的模式下，工具调用等复杂任务的表现也会变差。

我们下一版明确的优化目标之一，就是让 no-thinking 模式在工具调用等场景下也能表现出应有的水准。

👦🏻 现场观众

我们公司主要做航天领域的 AI 落地应用。目前产品的主要基座模型是 M2.7，因为 M3 刚开源，还没来得及在生产环境部署。

但我作为研发工程师，日常的开发工作和一些建设项目，自己完全是通过 Claude Code 配合 M3 来进行的。

我先分享一下对 M3 的使用感受。首先，能明显感受到它的指令遵循和任务完成能力更强。在 1 M 的上下文长度里，它能更好地实现多轮对话的指令遵循。例如，我在 Claude.md 里去写，让它在 worktree 里去开发，它能非常精准地捕捉到，这比 2.7 好了很多。

我的第一个问题是，我们在指令遵循这一块具体做了哪些优化？是在工程上还是在训练上？

第二个问题是，M3 的使用体感和 2.7 有很大不同。比如在实际 AI Coding 过程中，有时只需要改动一两行代码，它却会花很长时间去写测试代码、跑测试用例，整个过程执行下来花了三四个小时，结果其实就改了一行代码。（全场笑）

对于这种情况，有什么好的使用建议？

最后一个问题关于未来的模型计划。因为我们的客户涉及一些国家科研机构，主要需要私有化部署。由于客户的算力相对有限，未来是否会推出一些尺寸较小的模型？

👨🏻‍💻 阿岛

为什么 M3 在面对简单问题时也会花很长的时间去思考？

我们在训练 M3 的时候，非常看重长程和复杂任务，因此重点优化了这一方面。但后来我们回顾训练数据的分布，发现在简单问题上的关注度相对少了一些。

这导致 M3 在复杂任务上表现特别出色，但在简单任务上可能显得有些过度思考。

大家知道比如传统的 SWE ，可能就改十几行，哪怕是 SWE-Pro ，可能也就100行。所以大家就会发现它在复杂任务上表现很好。

关于思维链有效性的问题，我们会在 3.1 版本中通过强化学习手段进一步优化。3.0 版本当时我们确实希望尽早和大家见面，有些细节还有提升空间。

在具体的使用建议上，我和海外一些开发者交流，发现了一些有趣的探索。

因为 M3 的指令遵循能力非常强，有开发者在系统提示词里告诉它：“你是一个高效的思考者，请不要循环思考；对于简单问题，请快速给出答案。” ——加入这些约束后，冗长思考的现象得到了大幅改善。

另外，M3 是一个 400B 级别的模型，我们为了让它在长程任务上表现更好，它会自然地加长推理时间进行更多思考。这个问题会在后续版本中持续改善，在我们的新模型中也会综合的更好。

🧑🏻‍💻 临屿

我再补充一点关于指令遵循的部分。

在之前的版本中，有时会因为指令遵循不够强，导致任务完成不符合预期。在这一版中，我们特地构建了一个更强大的奖励系统。

它能够针对各种不符合预期的行为给出明确的拒绝和判断。我们在强化学习的训练过程中，利用这个系统清洗掉不好的思考轨迹，从而让模型的能力得到了显著提升。

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

👨🏻‍💻 IO 闫俊杰

关于“花了三个小时只改了一行代码”的情况，这确实不应该是模型应有的表现。但这不仅在 AI Coding 时，在使用 Agent 时也有类似现象。

这背后的核心原因在于，我们需要对模型的思考轨迹施加更多的过程监督。目前这种情况属于小概率事件，大部分时候表现是正常的。

这种小概率的“卡死”或循环，主要是因为强化学习和对齐数据的覆盖度还不够。随着这一版数据飞轮的运转，下一版中数据的覆盖度和多样性都会有很大改善。

另外，关于私有化部署。我们非常欢迎大家进行私有化部署。M3 已经适配了国产芯片，比如华为的990。如果有相关需求，可以直接给我们发邮件。

👦🏻 现场观众

我来自金融行业。我有两个问题：

第一是关于多模态。当前市场似乎更认可 Coding Plan，因为 Coding 能力越强，往往能带来更高的 API 调用量，公司也会有更好的 API 定价权。

未来 MiniMax 会把 Coding 能力作为一个主要的提升路线，还是会继续将多模态内容生成作为主要的研究方向？如果持续坚持多模态，是为了切入未来电商广告等领域的市场吗？

第二个问题想问 IO。在芯片和算力面临瓶颈的情况下，MiniMax 如果要对标 Opus 的能力，是会更多地研究整体的算法架构优化，还是去探索不同于 Transformer 架构的新范式？公司目前有没有在研究这个方向？

👨🏻‍💻 IO 闫俊杰

关于多模态，这是我们与国内大部分模型公司非常不同的一点。现在很多同行都在主攻 Coding 这一条路线，而我们是少数坚持在 Coding 和内容生成上同时投入的公司。

我们认为，AGI 的核心价值在于提高社会的生产力。而白领在电脑上完成的大部分工作，除了信息交换，主要就两件事：以 Coding 为核心的工程创造，和以内容生成为核心的创意表达。

因此，从语音、图片到视频的内容生成对我们来说同样重要。

内容生成的实质也是语言模型。我们的核心逻辑不是只做单纯的 DiT，而是把 DiT 当成一个 Decoder，让语言模型来驱动生成。

这样模型对物理世界的理解更好，生成东西的质量更高，指令遵循能力更强。很快，海螺 AI 也会迎来一系列新更新。

至于芯片和算力限制。客观上说，芯片禁售确实是个挑战，但它也促进了像 MiniMax 这样创业公司的诞生。当钱无法直接兑换成无限的算力时，AI 研发的竞争核心就从“资金”变成了“人才和算法”。

这让创业公司免受大厂的资金和资源碾压，反而处于一个相对公平的起跑线上。

又因为 AI 是生产力，它不是流量逻辑，大家只会用最合适的生产力模型，所以它的核心是算力、人才、模型能力而不是流量和资金。

👦🏻 现场观众

我是一名股票分析师，也是 MiniMax 的深度用户。

我之前频繁遇到一个痛点。在使用 M2.5 时，飞书群助手的知识引擎底层是 2.5，在调用一些 Skill 时，模型经常无法准确判断我的意图，不知道什么时候该调用工具，导致任务老是无法成功。

但换到 M3 之后，这种情况得到了极大的缓解，至少现在它对我的每一个 Prompt 都能精准地进行转发。

我平时除了做股票分析，也会做一些 Vibe Coding，尝试在 M3 上训练自己的选股 Agent。但在回测中我遇到了两个很实际的问题：

第一是回测中的数据太短的问题。因为模型在训练时已经记住了截止日期前的所有历史知识，我很难判断它选出某只股票是因为我的投资策略真的有效，还是因为它利用了已知的历史结果。

第二是模型本身的“世界观”，难免会告诉它一些该如何投资或者给建议的情况，用这样一个自然语言逻辑的模型去预测对时序性要求极高的股票数据，有时表现并不理想。

针对这两个问题，有什么好的建议和解决方法？另外，MiniMax 未来会不会推出类似选股或量化策略类的垂直产品？

👨🏻‍💻 阿岛

坦白说，我自己并没有把 Agent 用在二级市场投资领域，我自己更擅长用隔几年押注一家公司，肉身换取期权。

对于你提到的两个实际问题，我的建议是在构建 Agent 时必须建立强约束，而不是让它根据内生知识直接给出答案。

任何行业都有自己的 SOP 和方法论。你可以把这个方法论变成模型的 Skill 或者是通过 Agent 机制进行多步骤约束：要求模型每行动一步都必须给出证据，并且这个证据要能被外部代码或工具验证。这样能有效对抗模型的幻觉。

对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

比如，你问它“最近应该投资什么股票”，如果不加约束，它可能直接把 NVIDIA 等它记住的股票列出来，但昨天的市场变化、甚至像海力士最新的数据它其实并不掌握。

如果你要求它：“你必须按照这套分析逻辑，先去搜索最新数据，再对搜索结果进行多维度验证。”这样它提供的是推理能力和方法论的复用，而不是简单地“背诵”历史知识。

关于产品计划，我们的“10x”项目目前正在深度探索金融垂直领域，也有非常顶尖的行业人才在和我们一起做垂直专项项目。我们对 M3 在金融领域的表现非常有信心。

而且我们的“10x”项目会深入到各行各业。开个玩笑，我甚至有时候觉得我们可能属于“碳奸”（碳基生物中的奸细）在为硅基带路。

但是，我们自己大概率不会去做选股推荐之类的 C 端产品，这不仅涉及合规问题，而且投资本身是一件需要极度谨慎的事。

👨🏻‍💻 IO 闫俊杰

我也补充一下。我们对多模态的坚持，是因为我们认为它是生产力必不可少的一部分。

目前的模型生产力还处于辅助阶段，比如辅助写代码、收集信息、写分析报告。但这显然不是智能的极限。

智能的终局，一定是交付端到端的结果。比如在网络安全领域，模型能直接发现系统漏洞并完成修复；在金融领域，模型能真正做出产生价值的决策。

我们现在正处于一个过渡窗口期：从“只能做辅助性工作”迈向“能够端到端交付价值”。

要实现这个跨越，一方面需要 10T 量级的超大模型提供技术底座，我们和行业最顶尖的专家深度合作解决行业里最顶尖的问题，给行业带来变化，这是我们很相信的时期，所以我们相信一定能够做到 10T 量级的模型。

另一方面，去年我们对数据的理解是找人标注数据，今年我们对数据的理解是找到各行业里的大哥来带我们，真正解决行业里最重要的问题，这是我们今年思路上一个非常大的转变。

👦🏻 现场观众

我是一名绿电和算力分析师。

MiniMax 的愿景是“Intelligence with Everyone”。在面对成本和普及度都非常敏感的海外用户时，我们如何平衡生产力的下放与高昂的能耗？我们是更偏向于通过技术手段去“节流”（例如稀疏注意力限制、对抗噪声训练等），还是更倾向于通过多用国内的绿电算力资源来“开源”？

👨🏻‍💻 IO 闫俊杰

我们下一版更大尺寸模型的目标，是让大家在使用 Opus 级别的智能时，基本不再受到成本的限制。

曾经有工程师一个月消耗 30 万美金的 Token 来使用 AI 模型，这种成本对于普通企业来说是支撑不住的。我们希望通过优化，在接下来的几个月内，把 Opus 级别能力的使用成本降低到每个月“小几千美金”这个量级，让中小企业在公司内部也能“随便用”，从而实现顶级智能的真正普及。

目前全世界真正用过 Opus 级别大模型的人可能只有几百万，而全球的白领工作者接近 10 亿，这中间存在一个巨大的落差。

至于算力与能耗成本，短期看国产算力确实存在挑战，但如果把周期拉长到三到五年，这些物理限制和成本都不会是主要问题。

最核心的依然是通过技术演进，把模型效率做到极致。

文章来自于"十字路口Crossing"，作者 "Koji"。

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装：https://www.deepbi.com/

【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0