信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

正文

资源拓展

2025-10-11 15:57

昨天，State of AI Report 2025 正式发布了。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

背后主笔是硅谷投资人 Nathan Benaich 和他创办的 Air Street Capital，从 2018 年开始，这份报告就被称为“AI 行业的年度百科”。

含金量还是非常高的。

原文在此：https://www.stateof.ai/

今年的内容比以往更猛，不光讲了模型升级、芯片战、智能体，还讲了一个核心问题：

AI 到底给谁带来了真正的价值？我们现在用得热火朝天的大模型，是不是在“消耗算力的幻觉”里跑步？谁在真用，谁在烧钱，谁已经赚到第一桶金。

这份报告给了不少线索。全报告一共 300 多页，信息密度拉满，我们带你一起拆解。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

一、研究：推理元年，也是幻觉元年

2025 年，被称为“AI 推理元年”也不为过。

不管是 OpenAI、Anthropic、Google，还是中国的 DeepSeek，都把「推理」当成了决胜关键。

但《State of AI Report 2025》的视角却显得格外冷静：这场“推理盛宴”的热闹背后，既有真突破，也有不少幻觉

推理模型的爆发式进展

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

这一年最具标志性的模型，是 OpenAI 的 o1。

用「Chain-of-Thought（思维链）+ RL（强化学习）」的方式，提升复杂任务的表现，刻意让 AI“慢一点思考”。

在美国数学竞赛 AIME 上，OpenAI 的 o1 从训练到测试的表现都有明显提升，甚至开始挑战更复杂的奥赛题型。很多人也第一次看到，“AI 不再是答题机器，而是会留中间过程”的学习者。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

但更猛的，其实是中国团队。

DeepSeek 先是推出了 R1，后来又升级为 R1-Zero，直接用了一种叫 GRPO（Group Relative Policy Optimization）的方法，让模型“先生成多个答案，再学会从中自我比较、选最优”。

训练中，R1 的 AIME 得分从最初的 15.6%，一路飙升到了 79.8%，MATH-500 也达到了 97.3%，GPQA 达到 71.5%，这些都是当前世界顶级水平。

推理的幻象

但我们得问一句：它们真的更聪明了吗？

报告里的观点让人一惊：

“大多数所谓的推理进步，其实落在模型波动的自然范围内。”

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

什么意思？

就是你看到 AI 在某个数学题或逻辑题上的表现变好了，可能只是“随机运气”或者“换了种问法”，根本不是它思维方式变得更清晰了。

比如：

同一道题，只是在题目前加了一句“猫一天能睡 20 小时”的无关信息，错误率就可能翻倍；
在 DeepSeek R1、Qwen、Llama、Mistral 等多个 SOTA 模型中，加入无关信息，错误率甚至能飙升 7 倍；
GSM-Symbolic 的研究发现，只要把题目的数字换一换，或换种表达方式（比如英文变中文），模型的数学精度直接下降 60% 以上。

模型的「脆弱性」远超想象。

不过——即便如此，CoT 仍然是目前检测模型意图最强大的工具之一。

《State of AI Report》引用的多个安全性研究显示：在红队测试中，哪怕模型有意掩饰自己的“作恶意图”，CoT 仍能在 99% 的攻击样本中露出蛛丝马迹。尤其是在数学、代码等结构化任务中，CoT 是少数能揭示“模型到底是怎么想的”的窗口。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

AI 的“霍桑效应”

如果你是 AI 实验室的负责人，最怕什么？

怕你训练了一个“考试考得好”的 AI，但一上线就出事。

《State of AI Report 2025》指出，AI 已经具备一种让人毛骨悚然的能力：知道自己正在被评估。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

研究者称之为“AI 版霍桑效应”：

模型内部会浮现出一种“测试觉知方向”；
当你沿着这个方向“推一把”，它会变得更守规矩、更安全；
当你“关掉”这个方向，它就会表现出更真实的（可能更激进的）行为。

为了应对这种“装乖”机制，研究者提出了一个激进的概念：可监控性税（monitorability tax）。

我们也许得接受“性能不够最优”的模型，以换取更高的可解释性和透明度。就像招一个技术稍逊但诚实靠谱的员工，而不是一个聪明但善于掩盖问题的“内鬼”。

奖励机制的进化：模糊人类偏好 → 可验证正确性

在训练 AI“思考”的过程中，另一个关键技术正在悄悄变革：强化学习的奖励机制。

传统上，AI 靠人类给分：你觉得它答得好，就奖励它多点分。答差了，少点分。这叫 RLHF（Reinforcement Learning from Human Feedback），直白说就是“靠人点赞决定成败”。

但人类打分的标准太模糊了，也容易被“讨好式 AI”骗到。

所以现在，主流实验室开始用一种更硬核的方式：可验证奖励（RLVR）。

简单说，就是让 AI 做那些一看就知道对不对的任务，比如：

数学题有唯一解；
代码能不能跑过测试；
推理链条有没有逻辑漏洞。

用这种方式训练出来的模型，不但在精度上更稳，而且能显著提升一个叫CoT-Pass@Kmailto:CoT-Pass@K的严格指标——要求模型不仅答对题，还得答出一条“可信”的思考路径。

但报告也指出，RLVR 并不是万能钥匙。

两份研究报告还针锋相对：一方说“RLVR 只是在重排采样结果，没带来真正进步”；另一方说“如果你评分链条而不是答案，RLVR 确实更靠谱”。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

推理之后，AI 正奔向三个更远的方向

推理这场秀还没唱完，但真正的前沿玩家，已经在追逐下一个剧本：

世界模型：能根据状态预测下一个状态，实现交互式视频生成和虚拟环境控制（如 Genie 3、Dreamer 4）。
AI 科学家：多代理系统已能提出假设、规划实验并验证结果（如 DeepMind Co-Scientist、Stanford Virtual Lab）。
数学、化学、生物学突破：AI 系统在 IMO 数学竞赛、药物设计、蛋白质结构预测中已超越人类专家。

二、产业：从论文到利润，AI 终于开始真金白银地挣钱了

过去一年，AI 不再只是“发布模型—上热搜—拿融资”的循环游戏，而是开始真正走入商业主战场。

从报告看，2025 年的产业格局发生了几件大事：

AI 开始挣钱了，是真的挣“亿”了

2025 年的 AI 产业，开始在财务报表上交卷了：

多家“AI-first 公司”年收入突破数十亿美元，甚至直接接入广告、电商等业务，成为新增长引擎；
大模型实验室（OpenAI、Anthropic、Google DeepMind）通过 API、企业服务、定制化模型等方式，形成了清晰的订阅 + 增值 + 企业方案三层商业路径；
AI to AI 市场也在扩大：越来越多公司开发给 AI 用的插件、服务、接口。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

谁最挣钱？NVIDIA 几乎在“收智商税”

说 AI 挣钱了，不如说，NVIDIA 在挣所有人的钱。

2025 年，NVIDIA 市值突破了 4 万亿美元。你没看错，是和整个平台级经济体差不多的体量。

更夸张的是，根据报告统计：

“2025 年发布的 AI 研究论文中，有 90% 使用了 NVIDIA GPU。”

换句话说，AI 行业往前走的每一小步，几乎都离不开 NVIDIA 。

从 2016 年到现在，西方市场上那些想挑战英伟达的 AI 芯片公司，一共拿了大约 75 亿美元投资。看起来不少吧？可如果当时这些钱不是投给初创公司，而是全买了英伟达的股票，现在价值大约是 850 亿美元——整整翻了 12 倍。反观那些“挑战者”，市值加起来才 140 亿美元，勉强翻了两倍。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

当然，也不是没人挑战它。

今年的报告里提到，「定制芯片 + 新云架构（Neo-Clouds）」开始抬头：

Google 用 TPU v5 Ultra 支撑 Gemini；
AWS 用 Trainium、Inferentia 整合了自己模型堆栈；
中国本土也在加速国产算力芯片投放，尤其针对开源模型优化路径。

但坦白说，这些挑战目前更多是战术性优化，无法撼动 NVIDIA 的战略地位。一如英特尔垄断 X86 那样，NVIDIA 已经绑定了整个 AI 产业链的心跳频率。

新瓶颈是“没电”

之前我们也聊过这个问题。

以前搞 AI 的最怕听到一句话：“你没 GPU 啊？”而现在最怕听到的，是：“你拉不来电啊？”

今年报告里也提出了这个观点：

“AI 发展已进入‘电力决定路线图’的时代。”

什么意思？就是：

世界各地建的大模型超级数据中心；
但这些集群动辄需要「数百兆瓦到几千兆瓦（GWh 级）」的电力消耗，相当于一个中型城市的日常负荷；
而当前的电网根本跟不上它们的扩张速度：发电能力不够，变电站老旧，输配系统承压，政策审批周期长

结果就是：你想部署模型，先得去谈电网调度。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

AI 开发者正在变成“能源交易员”。

这不是夸张。比如某大型 AI 公司在德州买下整片工业地皮，实则是在争夺变电站和电网接入点。报告甚至提到，“部分 AI 基础设施的边际成本，已经由 GPU 价格转向千瓦时电价”。

中国开源模型全面反超：Qwen、DeepSeek、Kimi，把 Meta 甩在身后

这部分，是整个报告里最意外、但最值得打醒西方开发者的一幕。

回顾过去几年，Meta 的 LLaMA 系列一直是全球开源社区的“白月光”，几乎所有社区微调、项目部署、落地工具都围绕 LLaMA 做。

但就在 2025 年，中国模型完成了一场真正意义上的“超车”：

世界各地建的大模型超级数据中心；
但这些集群动辄需要「数百兆瓦到几千兆瓦（GWh 级）」的电力消耗，相当于一个中型城市的日常负荷；
而当前的电网根本跟不上它们的扩张速度：发电能力不够，变电站老旧，输配系统承压，政策审批周期长

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

Meta 之后发布的 LLaMA 4 没能维持热度，部分原因是选了 MoE 架构，调试难、社区门槛高、扩展性差。反观 Qwen、DeepSeek、Kimi 等模型覆盖从 1B 到 100B 各种规模，适合不同开发者上手，成为了真正“社区友好”的基础设施。

面对中国开源生态的狂飙，OpenAI 也开始重新考虑“自己是不是站错了队”。

2025 年 8 月，他们发布了 gpt-oss-120B 和 gpt-oss-20B，是自 GPT-2 之后首次开源大模型。

但这次开源，社区反响中等偏下。报告直接指出：“gpt-oss 系列的实际使用效果类似微软的 phi 模型：‘小而便宜’，但不稳定。”

三、政治：AI 已经不是技术竞赛，而是国家之间的权力游戏

到 2025 年，AI 已经从技术正在变成地缘政治的一部分——甚至可以说，是国际秩序的一部分。

这场竞赛最激烈的主角，还是中美。

美国封锁，中国造血

报告里用了一个颇具讽刺意味的词：“America-first AI”。

而这背后是一套政策组合：

对先进 GPU 的出口全面收紧（尤其是针对中国）；
对顶级模型的开放设置了「阈值限制」（比如 FLOPS 限制）；
投资回流本土、重点扶持“安全可信”的 AI 工具链；
甚至推动盟国一起设立“共同管控标准”，比如类似欧盟 AI Act 的框架。

这套打法，说白了，就是不给你卡、不给你投钱、设立规则限制你。让中国 AI 的发展必须靠自己造血。

而中国这边的应对，也非常明确：不再等，不再绕，直接“自给自足”干到底。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

报告里提到，中国在 2025 年不仅加速了国产 GPU 投产（尤其是面向开源模型的优化芯片），还出现了多个“从芯片到框架”的全链路国产替代项目。尤其在训练基础模型、做专有模型优化方面，已经不再完全依赖西方工具链。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

而这场脱钩的受害者，是全球创新。

社会结构也开始被冲击

当然，政治层面的转变最终也会落到每个人头上。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

2025 年，自动化冲击劳动力市场的证据第一次变得实锤了。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

报告提到，一些国家已经开始把“AI 失业”纳入劳工统计指标中，比如：

低技能岗位被 AI 工具压缩工时，比如客服、基础写作、数据录入；
原本“中产技能型”工作，也出现了被半自动工具替代的趋势，比如财务审计、文书法律服务；
招聘市场开始用“是否熟悉 AI 工具”作为硬门槛，比如 Excel 现在可能不重要了，ChatGPT、Copilot 才是必修课。

多个国家已经启动了关于 “AI 税收”、“全民再教育” 的政策讨论：如果 AI 抢走了人类的工作，那么创造它的公司，要不要多缴点税？这些钱能不能用于再教育基金？

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

这听起来像是老生常谈，但区别是，这一次是真的来了。

四、安全：AI 世界的“攻防战”，正在彻底失衡

说到 AI 安全，很多人第一反应是：“会不会哪天模型突然暴走？”但现实要复杂得多、也残酷得多。

2025 年的 AI 安全，不再是“有没有问题”的讨论，而是“攻防是否还平衡”的问题。而报告的答案，几乎可以说是：不再平衡，甚至已经倾斜得很危险。

安全投入，挡不住五个月翻倍的攻击能力

先看一组令人头皮发麻的数据：

“攻击能力每 5 个月翻一倍。”

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

什么意思？就是你刚刚设立一道防线，五个月内就会被新方法绕过、穿透，甚至自动化批量化。

与此同时，顶级实验室虽然砸了史无前例的钱在安全上，但外部的非盈利安全研究机构，一整年的预算还不够这些实验室一天的成本。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

这是一种极度不对等的结构：做出模型的，是富可敌国的巨头；试图监督它们的，是几间办公室几台电脑的非盈利团队。

这就像让一个手持盾牌的骑士，去拦截一群开坦克的盗贼。

报告里的话说得很直白：

“前沿 AI 实验室的进展速度已经远远快过了任何形式的安全对策机制。”

安全研究的新方向：从语言监控转向结构控制

报告里对安全研究的重点做了非常清晰的分类：

数据层安全：现在主流的做法，是在模型训练前就把有害内容过滤掉，或者在训练中加语境标签、拒绝学习某些模式。这个方向已经比较成熟，能明显降低“越狱”率。
CoT 安全监控：思维链（Chain of Thought）不仅能让模型“显得像在思考”，还意外成为一种检测作弊的工具。报告提到，95% 的Reward Hacking行为可以被思维链暴露。但问题来了：攻击者也会“装”一条合法的思维链出来。
无语言推理模型（如 COCONUT）：为了省算力，有些团队开始研究“完全不靠语言”的模型，比如图结构推理、逻辑树模型。这种模型更难出现幻觉，但也更难监控。因为你根本看不见它在说什么。

《State of AI Report 2025》也在最后列出了未来 12 个月的 10 个预测。

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

读完整份报告，我最大的感受是：AI 已经从「一个工具」，变成了「一个结构」。

它正在改写科学的生产方式、资本的流动逻辑、权力的分配体系，甚至人的定义方式。

我们曾以为，AI 会像电一样普及，像互联网一样连接世界。

但现在它告诉我们，它更像语言本身——我们习惯用它表达，却越来越难脱离它思考。

这令人震惊，也令人兴奋。

因为我们正身处其中，亲历这场变化。

文章来自于微信公众号 “夕小瑶科技说”，作者 “夕小瑶科技说”

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

IOS下载

安卓下载

微信群

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

站点导航

APP 下载

一、研究：推理元年，也是幻觉元年

推理模型的爆发式进展

推理的幻象

AI 的“霍桑效应”

奖励机制的进化：模糊人类偏好 → 可验证正确性

推理之后，AI 正奔向三个更远的方向

二、产业：从论文到利润，AI 终于开始真金白银地挣钱了

AI 开始挣钱了，是真的挣“亿”了

谁最挣钱？NVIDIA 几乎在“收智商税”

新瓶颈是“没电”

中国开源模型全面反超：Qwen、DeepSeek、Kimi，把 Meta 甩在身后

三、政治：AI 已经不是技术竞赛，而是国家之间的权力游戏

美国封锁，中国造血

社会结构也开始被冲击

四、安全：AI 世界的“攻防战”，正在彻底失衡

安全投入，挡不住五个月翻倍的攻击能力

安全研究的新方向：从语言监控转向结构控制