OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维

搜索
AI-TNT
正文
资源拓展
OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维
2025-04-18 09:41
AI趋势正在“中场休息”,在此之前训练>评估,在此之后评估>训练。


这是OpenAI员工、姚班校友姚顺雨给出的最新判断。


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维


AI发展分为上下两阶段。上半场以模型和方法为中心,核心构建了模型和训练方法;随着AI技术成熟,下半场的重点转向如何定义有现实意义的任务、如何有效评估AI系统的表现。


这要求研究者要及时转变思维和技能树方向,可能要更接近于产品经理。


为啥会出现这种转变?


因为强化学习终于能泛化了。


在姚顺雨最新的blog中,他系统性阐释了如上观点以及背后思考。想法刚刚发布就得到了不少业内人士的认可:


我同意你的观点。评估中还有一点值得考虑:成本成为越来越重要的影响因素。


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维


离线RL/无监督学习→在线RL学习策略。我们是不是已经准备好转型了?


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维


值得一提的是,这篇文章也有AI参与了撰写。


这篇博文是基于我在斯坦福大学和哥伦比亚大学的演讲。我使用OpenAI深度研究来阅读我的PPT并打了草稿。


AI下半场是产品的游戏


姚顺雨表示,人工智能发展走向新阶段,我们的思维方式应该变一变了。


把重点从解决问题转移到定义问题,在新时代评估比训练更重要。
我们不仅要思考“我们能否训练一个模型来解决XX”,而是要思考“我们应该训练AI做什么?我们如何衡量真正的进步?”


为啥这么说?


先来看AI的上半场发生了什么。


AI上半场:方法为王


在AI发展的“前半场”,最有影响力的工作主要集中在模型和训练方法(如 Transformer、AlexNet、GPT-3),而不是任务或基准。即便是非常重要的基准数据集如ImageNet,其引用量也不到AlexNet的三分之一。


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维


究其原因,是因为方法比任务更难、更有趣


构建新算法或模型架构通常需要深刻的洞察和复杂的工程实践——比如反向传播算法、AlexNet、Transformer这样的突破;相比之下,任务的设定往往只是把人类的已有任务(如翻译、图像识别)转化为可度量的标准,技术含量相对较低。


没什么洞察力,甚至都没什么工程力的体现。


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维


加之,任务容易定义但不够通用,而方法(如Transformer)却可被广泛应用到NLP、CV、RL等多个领域,从而产生跨任务的通用价值


一个好的模型架构或算法可以在多个基准上“爬山”(hillclimb),因为它具有通用性和简洁性。这也是为什么“方法胜于任务”在这个阶段成为主导逻辑。


尽管这种以“方法创新”为主导的范式持续多年并催生了巨大突破,但这些方法的积累最终带来了范式转变的临界点——


这些基础能力的集成已经可以构建出“可工作的AI任务解法配方(recipe)”,也就意味着:我们终于可以认真考虑如何解决真实任务本身,而不仅仅是构建更强的模型。


强化学习里,算法是次要的


姚顺雨认为,配方有三要素组成:


  • 大规模语言训练
  • 计算与数据的规模化
  • 推理与行动


具备这三要素即可产出稳定且强大的AI。


通过强化学习可以理解为何是这三要素。


强化学习的三大核心是算法、环境和先验知识。


长期以来,强化学习研究者大多主要关注算法,忽视环境和先验。但随着经验增长,大家发现环境和先验对实际效果影响巨大。


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维


但是在深度强化学习时代,环境变得很重要。


算法的性能通常特定于它的开发和测试环境。如果忽视了环境,就可能建立一个“最优”的算法,但这个算法只是在特定情况下很强。


那为什么不首先找出真正想要解决的环境,然后再找最合适它的算法?


姚顺雨表示,这正是OpenAI最初的思路。


OpenAI最初的计划就是把整个数字世界变成一个可以用强化学习解决的“环境”,然后用聪明的RL算法来解决这些环境中的任务,最终实现数字通用人工智能(digital AGI)。


OpenAI在这个思路下完成了很多经典工作,比如用RL打Dota、解决机械手等。


但它并没有实现让RL解决计算机/上网的问题,RL Agent也无法迁移到其他环境,似乎差了点什么。


到了GPT-2/3时期,OpenAI意识到,缺的是先验知识。


需要引入强大的语言先验知识,才能解决在复杂环境中难以泛化的问题。这使得RL Agent在聊天或网页任务中有显著提升,如WebGPT、ChatGPT。


但这好像和人类智慧上仍旧有差别,比如人类可以轻松上手一个新游戏、哪怕是零样本,但是当时AI做不到。


影响泛化的关键是“推理能力”


人类不是单纯执行指令,而是会进行抽象思考。比如:“地牢危险 → 我需要武器 → 没有武器 → 可能藏在箱子里 → 箱子3在柜子2 → 那我先去柜子2”。


姚顺雨说,推理是种“奇怪”的动作。


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维


推理本身不直接改变世界,但其空间是无限组合的。在传统 RL 框架中,它是“不划算”的 —— 推理不像行动那样有即时反馈,反而会“稀释”奖励。


但如果把“推理”加入RL的动作空间,并结合语言预训练模型的先验,就可以带来极强的泛化能力。类似于:虽然你面对的是无限个空盒子,但你从过往经验中学会了如何在空盒子中识别有价值的选择。


所以,一旦有了好的语言预训练先验+合适的环境设计(允许语言推理),RL法本身反倒变得次要。


o系列、R1、Deep Research、智能体等,都是由此而来。


或许正如乔布斯所说,你无法预见未来的点点滴滴是如何连接的;只有回头看时,你才能把它们串联起来。


下半场要有新的评估规则


由此,配方改变了AI社区的比赛规则。


开发新模型→刷新基准→创建更难的基准→更强的新模型。


这种规则在AI发展的上半场是有必要的,因为在模型智能水平不够高时,提高智商通常会提高效用。


可问题是,尽管AI已经在各类基准测试(如围棋、SAT、律师考试、IOI 等)中超越人类,但这些成就并未真正转化为现实世界的价值或效用。


Jason Wei的一张图可以很好解释这一趋势,AI刷榜的速度越来越快,但是世界因此改变了吗?


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维


姚顺雨认为当前的评估方式主要存在两方面局限,导致AI在解决现实问题上严重脱节。


1、假设任务是独立同分布的(i.i.d.):

模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性和学习效应,无法评估模型长期适应能力和记忆机制的重要性。


2、假设评估过程应自动化且与人无关:

当前模型接收输入 → 完成任务 → 接收评分。但真实世界中,大多数任务(如客户服务、软件开发)都需要持续的人机互动


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维


解决之道就是重新设计评估方式,为下半场制定新的游戏规则。


姚顺雨认为创新的评估应该贴近现实世界任务、优化模型配方解决任务,形成新的正向循环。


这个游戏很难,因为它陌生,但是也很令人兴奋。
上半场的玩家解决视频、游戏和考试任务,下半场的玩家则利用智能创建有用的产品,建立起价值数十亿甚至数万亿美元的公司。
欢迎来到AI下半场!


姚班学霸、思维树作者


最后再来介绍一下本文作者姚顺雨。


他去年加入OpenAI,担任研究员,负责研究智能体。


他身上的关键字有:


  • 清华姚班
  • 姚班联席会主席
  • 清华大学学生说唱社联合创始人
  • 普林斯顿计算机博士


他的研究成果包括:


  • 思维树(Tree of Thoughts):让LLM反复思考,大幅提高推理能力。
  • SWE-bench:一个大模型能力评估数据集。
  • SWE-agent:一个开源AI程序员。


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维


最后,想要阅读更原汁原味的版本,可戳:

https://ysymyth.github.io/The-Second-Half/


文章来自于“量子位”,作者“明敏”。


OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

IOS下载
安卓下载
微信群
沪ICP备2023015588号