赢了的才是「GPT-5」。
GPT-5 迟迟未现身,网友们开始制作各种梗图「吐槽」:
其实,这几天关于 GPT-5 的传言就没消停。
先是有网友在 macOS ChatGPT 应用中发现了 GPT-5-Auto 和 GPT-5-Reasoning 模型的踪迹:
再是网友爆料微软 Copilot 和 Cursor 也已经悄咪咪接入测试GPT-5。
8 月 1 日,The Information 更是洋洋洒洒写了一篇名为《Inside OpenAI’s Rocky Path to GPT-5》的长文,扒出了 GPT-5 的更多内幕。
以下是省流版:
接下来,我们就详细来吃个瓜。
去年 12 月,OpenAI 展示了 Test-Time Scaling 的测试结果,成为后预训练时代大模型能力的关键突破口。该测试表明,当 AI 拥有更多时间和计算能力来处理任务时,其性能会持续增加,这一技术路径在 OpenAI-o1 和 DeepSeek-R1 的实践中已经初显威力。看起来,广大 ChatGPT 用户会被新 AI 的强大功能所震撼。
然而,兴奋劲并没有持续太久。
据两位参与开发的人透露,当 OpenAI 的研究人员将这款新 AI 改造成基于聊天的版本 o3,使其能够响应 ChatGPT 用户的指令时,之前测试基准上的性能提升基本消失了。
这只是 OpenAI 今年面临的大量技术挑战的一个例子,越来越多的困难正在减缓 AI 发展的步伐,甚至可能影响到 AI 爆款应用 ChatGPT 业务。
在即将发布的 GPT-5 上,OpenAI 研究人员据说已经找到了方法。
据消息人士和 OpenAI 内部工程师称,OpenAI 即将发布的一代旗舰 AI 模型 GPT-5,在编程、数学等方面的能力有很大提升。
一个消息人士表示,新模型在编写应用程序代码时,能够更好地添加功能,使其更易于使用且更美观。他表示,GPT-5 在驱动 AI 智能体以极少的人工监督处理复杂任务方面也比其前代产品做得更好。例如它可以遵循复杂的指令,确定自动客服何时应该退款的规则列表,此前的模型需要先测试几个棘手的客户案例(即边缘案例),才能处理此类退款。
另一位知情人士表示,这些改进无法与早期 GPT 模型的性能飞跃相提并论,例如 2020 年的 GPT-3 和 2023 年的 GPT-4 之间的改进。OpenAI 在过去 12 个月中经历的性能提升放缓表明,它可能很难超出其最大的竞争对手,至少在 AI 能力方面是这样。
OpenAI 目前的模型通过 ChatGPT 和各类应用已经创造了巨大的商业价值,即使是渐进式的改进,都会增加客户需求。这些改进还能让投资者有信心为 OpenAI 未来三年半内斥资 450 亿美元购买 GPU,开发和运行产品的计划提供资金。
最近的进展也帮助解释了为什么 OpenAI 高管最近几周告诉一些投资者,他们认为公司可以实现「GPT-8」这一目标。这一表态与 CEO 山姆・奥特曼公开的言论一致,他表示,凭借现有的技术知识,OpenAI 有望创造出与最聪明人类能力相媲美的人工智能技术,即 AGI。
虽然距离实现 AGI 仍有很长的路要走,但即将发布的 GPT-5 模型可能具有一些除了更好的编码和推理之外的其他吸引力。
据一位知情的微软员工透露, 微软拥有 OpenAI 知识产权的独家使用权,该公司的一些领导层告诉员工,他们测试该模型的结果显示,GPT-5 能够在不消耗更多计算资源的情况下,生成更高质量的编码和其他基于文本的答案。
该人士表示,部分原因是它能够比之前的模型更好地判断哪些任务需要相对更多或更少的计算资源。
OpenAI 的内部评估显示, 在去年竞争对手 Anthropic 率先开发并向软件开发人员和 Cursor 等编码助手销售此类模型后,提升人工智能自动执行编码任务的能力已成为 OpenAI 的首要任务。
OpenAI 员工认为,自动编码不仅对公司业务至关重要, 对于实现人工智能研究人员自身工作的自动化也至关重要 。
OpenAI 的进展并非一帆风顺,因为其研究人员和管理层今年都面临着新的压力。
首先是和微软之间微妙的关系。
尽管微软是 OpenAI 最大的外部股东,并且根据双方的合同协议,微软有权在 2030 年之前使用 OpenAI 的一些技术,但一些 OpenAI 的高级研究人员并不赞同将他们的创新和发明交给微软。
在财务方面,微软和 OpenAI 也有着非常紧密的合作关系,但在合作的具体条款上存在争议,双方都在要求对方做出一些让步。
OpenAI 希望通过重组其营利性部门,来为将来上市做准备。虽然双方在一些细节上仍然存在不确定性,但已经有一些重要的方面达成了初步的共识,比如微软可能会在 OpenAI 重组后获得约 33% 的股权。
其次就是 Meta 不断「撬墙角」。
最近,Meta 狠砸真金白银,从 OpenAI 挖去了十多位研究人员,其中一些还曾参与了 OpenAI 近期改进技术的工作。
这些人才流失和随之而来的人员调整,给 OpenAI 的管理层带来了压力。
上周,OpenAI 的研究副总裁 Jerry Tworek 在公司内部的 Slack 中,向他的上司 Mark Chen 抱怨了团队的变动,而许多同事都看到了他的抱怨。Tworek 表示,他必须休息一周来重新评估情况,但后来他并没有休假。
虽然 OpenAI 在商业上取得了一些进展,但公司内部对能否持续改进 AI 并保持领先地位仍然存在一些担忧,特别是面对像 Google、xAI 和 Anthropic 这样的资金雄厚的竞争对手。
2024 年下半年,OpenAI 开发了一个名为 Orion 的模型,原计划将其作为 GPT-5 发布,并预计其性能会比现有的 GPT-4o 模型更强。然而,Orion 并未达到预期的提升效果,因此 OpenAI 将其发布为 GPT-4.5 模型,结果这个模型的影响力似乎也没多大。
Orion 未能成功的部分原因在于其预训练阶段的局限性。预训练是模型开发的第一步,模型需要处理大量数据以便理解不同概念之间的联系。OpenAI 在面临高质量数据匮乏的同时,还发现对 Orion 模型做的优化在模型较小的时候有效,但当模型规模增大时,这些优化就不再有效了。
此外,OpenAI 的研究人员还面临其他问题。
去年,OpenAI 开发了推理模型,这些模型在获得更多计算资源以处理答案时表现得更好。这些模型源自 2023 年末的一项名为 Q * 的突破,这一突破震惊了公司的研究人员,因为它能够解决之前从未见过的数学问题。到 2024 年,推理模型似乎帮助公司克服了预训练阶段性能增长放缓的问题。
去年秋天,OpenAI 将第一个主要推理模型变成了 o1。此次发布为 OpenAI 在 AI 领域赢得了新的影响力,并为依赖推理模型的 AI Agent 开发奠定了基础.
据参与开发的人士透露,OpenAI 在 2024 年底之前创建了下一个推理模型 o3,其基础大语言模型与 o1 相同,都是 GPT-4o。尽管 o3 和 o1 拥有相同的模型血统,但 o3 的母模型(也称为教师模型)在理解各种科学领域及其他领域方面,相比 o1 的母模型取得了显著的进步。
进步的一个原因是 OpenAI 决定使用更多的英伟达芯片服务器来开发 o3 的母模型,这本质上为模型提供了更强的处理能力,以理解复杂的概念。
另一个原因是,研究人员赋予了 o3 母模型搜索网络或从代码库中获取信息的能力,这也帮助其性能超越了 o1 的母模型。
OpenAI 公开分享了针对该模型优势的特殊测试结果,不仅登上了全球头条,还在社交媒体上引发了疯狂的炒作,但随后现实摆在了面前。
参与开发的人员表示,当 OpenAI 将 o3 母模型转换为能让人们提问的 ChatGPT 版本(也称为学生模型)时,其收益显著下降,甚至比 o1 表现好不了多少。他们表示,当 OpenAI 创建商用 API 的模型版本时,也出现了同样的问题。
有知情人士表示,造成这种情况的原因之一与该模型理解概念的独特方式有关,这可能与人类的沟通方式不同。他表示,创建基于聊天的版本实际上会降低原始模型的水平,因为它需要被迫使用人类语言而不是自己的语言。
我们知道,推理模型在 ChatGPT 中「思考」如何解决问题时有时会出现的胡言乱语,就反映了一些沟通差异。
据另一位知情人士透露,该公司也没有花费太多精力以能与人类更好沟通的目标进行训练。
尽管有所退步,OpenAI 今年公开发布的 o3 推理模型仍然帮助核聚变和病原体检测等领域的科学家提出了新的假设和实验进行测试。
然而,大语言模型和 ChatGPT 中的模型并没有像 OpenAI 高管和研究人员预期的那样顺利。奥特曼告诉员工,o 系列模型似乎也让 ChatGPT 的客户感到困惑,因此该公司恢复了原来 GPT 模型的命名规律。
据一位参与 GPT-5 开发的人士透露,就在 6 月份由于技术问题,OpenAI 正在开发的模型似乎都不足以被贴上 GPT-5 的标签。
尽管如此,OpenAI 仍有一招:据一位知情人士透露,他们一直在开发一种研究人员称之为「通用验证器」(universal verifier)的东西,可以自动执行确保模型在强化学习过程中生成高质量答案的过程。这个过程本质上是让一个大语言模型使用各种来源的研究来检查和评分另一个模型的答案。
今年夏初,OpenAI 的未公开模型实现 IMO 金牌成绩后,高级研究员 Alexander Wei 在 X 上表示,其一直在使用的强化学习方法是「通用的」,这意味着它也可以验证更主观类别中答案的质量。
这些进步似乎也在帮助 OpenAI 开发 GPT-5,GPT-5 在软件编程等更易验证的领域和创意写作等更主观的领域都表现出了进步。
包括 xAI 和谷歌在内的其他公司也极为重视强化学习,将其视为改进 AI 模型的有前景的技术。OpenAI 强化学习部门负责人 Tworek 最近公开表示,他赞同 OpenAI 模型背后的强化学习系统才是通用人工智能(AGI)的真正构成要素。
OpenAI 即将发布的 GPT-5 被人们寄予厚望。山姆・奥特曼上周在与喜剧演员 Theo Von 的播客中大肆宣传 GPT-5 的功能,并介绍了该模型如何轻松回答他不理解的问题。奥特曼表示,「GPT-5 几乎在所有方面都比我们更聪明。」
也正是因为前景不错,OpenAI 在最新一轮的融资上进展非常顺利。
据《纽约时报》本周五报道,OpenAI 刚刚又融资了 83 亿美元,估值达到 3000 亿美元。这笔交易是 OpenAI 今年筹集 400 亿美元资金的更广泛战略的一部分。
据报道,这轮融资超额完成,比原计划提前了几个月。OpenAI 最初在 3 月份从风投公司筹集了 25 亿美元,当时该公司宣布计划在由软银领投的一轮融资中筹集 400 亿美元。OpenAI 原计划在年底前再融资 75 亿美元,但由于投资者在强劲增长的背景下争相加入其股权结构,OpenAI 最终拿到了便宜。
ChatGPT 的每周活跃用户超过 7 亿,推动了 OpenAI 的年收入已经接近 130 亿美元,预计到年底将达到 200 亿美元。此外加上美国政府的《AI Action Plan》以及与微软的谈判,这些都可能帮助这家大号初创公司实现年度净盈利的目标。
本轮融资是由 Dragoneer Investment Group 领投的,其投入金额高达 28 亿美元。许多新投资者也参与了融资,包括私募股权巨头黑石集团和 TPG,共同基金管理公司普信(T. Rowe Price),其他参与者包括 Altimeter Capital、Andreessen Horowitz、Coatue Management、D1 Capital Partners、Fidelity Management、Founders Fund、红杉资本、老虎环球基金和 Thrive Capital。
据称,OpenAI 的一些早期投资者还对他们在本轮融资中获得的资金分配较少感到沮丧。
参考内容:
https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5
https://www.nytimes.com/2025/08/01/business/dealbook/openai-ai-mega-funding-deal.html
文章来自于微信公众号“机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/