OpenAI Release
凌晨,OpenAI 发布 GPT-5.5,是 GPT-5 系列迄今最大更新

下面这个,是介绍视频

https://openai.com/index/introducing-gpt-5-5/
本次核心变化:用更少的 token,干更难的活
在 Artificial Analysis 的 Coding Agent Index 上,GPT-5.5 达到了最高智能水平,成本是同级别竞品的一半

GPT-5.5 这个模型,目前已向 ChatGPT 付费用户开放
对于更高级别的 GPT-5.5 Pro,则向 Pro、Business、Enterprise 用户开放
API 即将上线,价格大幅上涨,为 $5/$30 (每百万Token),是 5.4 价格的 2 倍

OpenAI 拿出了一张 9 项核心指标的对比表,横向对比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro

我把表格重绘了下
在 Artificial Analysis Intelligence Index(第三方,10 项 eval 加权平均)上,GPT-5.5 在同等输出 token 量下智能得分最高,token 总消耗明显低于其他模型(注意:考虑到 5.5 是 5.4 价格的2倍,所以总价还是更贵了)

Terminal-Bench 2.0复杂命令行工作流:82.7%,vs GPT-5.4 的 75.1%,vs Claude Opus 4.7 的 69.4%
SWE-Bench Pro真实 GitHub issue 解决:58.6%,vs GPT-5.4 的 57.7%。Claude Opus 4.7 报了 64.3%,但 Anthropic 承认部分问题存在记忆化
Expert-SWE内部长周期编码任务,中位人类完成时间 20 小时:73.1%,vs GPT-5.4 的 68.5%

在 Codex 里,GPT-5.5 可以接手从实现、重构到调试、测试的完整工程工作。上下文窗口 400K
coding 之外,GPT-5.5 在日常电脑操作和知识工作上的提升同样明显
GDPval44 个职业知识工作测试,胜出或平手率 84.9%,vs GPT-5.4 的 83.0%,vs Claude Opus 4.7 的 80.3%
OSWorld-Verified模型独立操作真实电脑环境:78.7%,vs GPT-5.4 的 75.0%
Tau2-bench Telecom复杂客服工作流,无 prompt 调优:98.0%,vs GPT-5.4 的 92.8%
GPT-5.5 Pro 也有提升。早期测试者觉得 GPT-5.5 Pro 在业务、法律、教育、数据科学方向上比 GPT-5.4 Pro 更全面、更准确

财务建模 demo,手动替换:https://player.vimeo.com/video/1185616826
OpenAI 公司超过 85% 的员工每周都在用 Codex,覆盖工程、财务、市场、公关、数据科学、产品管理
公关团队分析了 6 个月的演讲邀请数据,建了打分和风险框架,低风险请求自动处理,高风险请求交人审核
财务团队审了 24,771 份 K-1 税表,共 71,637 页,比去年提前两周完成
GTM 团队自动生成周报,每周省 5-10 小时
GeneBench 是 OpenAI 新推出的 eval,测试多阶段遗传学和定量生物学数据分析。这些任务通常对应科研专家几天到几周的工作量。GPT-5.5 得分 25.0%,GPT-5.4 是 19.0%,GPT-5.5 Pro 达到 33.2%
BixBench(真实生物信息学和数据分析 benchmark):GPT-5.5 得分 80.5%,GPT-5.4 是 74.0%

Academic 评测数据
GPT-5.5 的内部版本配合自定义工具链,发现了关于 Ramsey 数的一个新证明。Ramsey 数是组合数学的核心对象,研究结果稀少且技术难度高。这个证明后来在 Lean 中完成了形式化验证

GPT-5.5 更大更强,但实际延迟和 GPT-5.4 一样
此前,OpenAI 用固定数量的静态分区来平衡 GPU 上的计算负载
而在新版本中,Codex 分析了数周的生产流量数据,写了自定义的启发式分区算法。这一项改进让 token 生成速度提升了超过 20%

模型帮忙优化了自己运行的基础设施
GPT-5.5 的网络安全能力被 OpenAI Preparedness Framework 评为 High(生物/化学能力同为 High)。没有达到 Critical 级别
CyberGym81.8%,vs GPT-5.4 的 79.0%,vs Claude Opus 4.7 的 73.1%
CTF 挑战任务内部扩展版:88.1%,vs GPT-5.4 的 83.7%
与此同时,GPT-5.5 也发布同时推出了一个新项目:生物安全漏洞赏金

规则是这样,OpenAI 准备了 5 个生物安全问题,参与者需要找到一条「通用越狱 prompt」,在 Codex Desktop 的干净对话里,一次性通过全部 5 个问题,且不触发审核,就算越狱成功
参与地址在这:https://openai.com/index/gpt-5-5-bio-bug-bounty/
第一个成功的通用越狱,奖金 $25,000。部分突破可能获得较小奖励
申请窗口2026 年 4 月 23 日开放,6 月 22 日截止,滚动审核
测试窗口2026 年 4 月 28 日至 7 月 27 日
准入条件需要现有 ChatGPT 账号,签署 NDA
保密要求所有 prompt、输出和发现均受保密协议覆盖
面向有 AI 红队、安全或生物安全经验的研究者
GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用户
GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 用户,400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍,成本 2.5 倍
gpt-5.5$5/1M input tokens,$30/1M output tokens,1M 上下文窗口
gpt-5.5-pro$30/1M input tokens,$180/1M output tokens
Batch / Flex标准价的一半
Priority标准价的 2.5 倍
GPT-5.5 单价比 GPT-5.4 高,但 token 效率也更高
OpenAI 表示在 Codex 里,GPT-5.5 对大多数用户来说,实际消耗的 token 比 GPT-5.4 更少
以下是 OpenAI 公布的全部评测数据,按类别整理。所有 GPT 评测在 reasoning effort 设为 xhigh 的研究环境中进行

Coding 评测表

Professional 评测表

Computer Use and Vision 评测表

Tool Use 评测表

Academic 评测表

Cybersecurity 评测表

Long Context 评测表

Abstract Reasoning 评测表

Abstract Reasoning 评测表
SWE-Bench Pro 上 Claude Opus 4.7 报了 64.3%(GPT-5.5 是 58.6%),但 Anthropic 承认部分问题存在记忆化
MCP Atlas 上 Claude Opus 4.7(79.1%)和 Gemini 3.1 Pro(78.2%)均高于 GPT-5.5(75.3%)
Humanity's Last Exam(带工具)上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%
长上下文 256K 以上,Claude Opus 4.7 在部分指标上仍有优势
→ 官方博客:openai.com/index/introducing-gpt-5-5/
→ System Card:deploymentsafety.openai.com/gpt-5-5
→ Bio Bug Bounty 申请:https://openai.com/index/gpt-5-5-bio-bug-bounty/
→ BixBench 论文:arxiv.org/abs/2503.00096
→ Artificial Analysis 方法论:artificialanalysis.ai/methodology/intelligence-benchmarking
→ API 定价:openai.com/api/pricing/
文章来自于"赛博禅心",作者 "金色传说大聪明"。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0