GPT-5.5 发布，详细解读

AI技术研报 2026-04-24 10:13

+8820 阅读

OpenAI Release

凌晨，OpenAI 发布 GPT-5.5，是 GPT-5 系列迄今最大更新

GPT-5.5 发布，详细解读

下面这个，是介绍视频

GPT-5.5 发布，详细解读

https://openai.com/index/introducing-gpt-5-5/

本次核心变化：用更少的 token，干更难的活

在 Artificial Analysis 的 Coding Agent Index 上，GPT-5.5 达到了最高智能水平，成本是同级别竞品的一半

GPT-5.5 发布，详细解读

GPT-5.5 这个模型，目前已向 ChatGPT 付费用户开放

对于更高级别的 GPT-5.5 Pro，则向 Pro、Business、Enterprise 用户开放

API 即将上线，价格大幅上涨，为 $5/$30 (每百万Token)，是 5.4 价格的 2 倍

GPT-5.5 发布，详细解读

能力总览

OpenAI 拿出了一张 9 项核心指标的对比表，横向对比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro

GPT-5.5 发布，详细解读

我把表格重绘了下

在 Artificial Analysis Intelligence Index（第三方，10 项 eval 加权平均）上，GPT-5.5 在同等输出 token 量下智能得分最高，token 总消耗明显低于其他模型（注意：考虑到 5.5 是 5.4 价格的2倍，所以总价还是更贵了）

GPT-5.5 发布，详细解读

Terminal-Bench 2.0复杂命令行工作流：82.7%，vs GPT-5.4 的 75.1%，vs Claude Opus 4.7 的 69.4%

SWE-Bench Pro真实 GitHub issue 解决：58.6%，vs GPT-5.4 的 57.7%。Claude Opus 4.7 报了 64.3%，但 Anthropic 承认部分问题存在记忆化

Expert-SWE内部长周期编码任务，中位人类完成时间 20 小时：73.1%，vs GPT-5.4 的 68.5%

GPT-5.5 发布，详细解读

在 Codex 里，GPT-5.5 可以接手从实现、重构到调试、测试的完整工程工作。上下文窗口 400K

知识工作

coding 之外，GPT-5.5 在日常电脑操作和知识工作上的提升同样明显

GDPval44 个职业知识工作测试，胜出或平手率 84.9%，vs GPT-5.4 的 83.0%，vs Claude Opus 4.7 的 80.3%

OSWorld-Verified模型独立操作真实电脑环境：78.7%，vs GPT-5.4 的 75.0%

Tau2-bench Telecom复杂客服工作流，无 prompt 调优：98.0%，vs GPT-5.4 的 92.8%

GPT-5.5 Pro 也有提升。早期测试者觉得 GPT-5.5 Pro 在业务、法律、教育、数据科学方向上比 GPT-5.4 Pro 更全面、更准确

GPT-5.5 发布，详细解读

财务建模 demo，手动替换：https://player.vimeo.com/video/1185616826

OpenAI 内部用例

OpenAI 公司超过 85% 的员工每周都在用 Codex，覆盖工程、财务、市场、公关、数据科学、产品管理

公关团队分析了 6 个月的演讲邀请数据，建了打分和风险框架，低风险请求自动处理，高风险请求交人审核

财务团队审了 24,771 份 K-1 税表，共 71,637 页，比去年提前两周完成

GTM 团队自动生成周报，每周省 5-10 小时

科学研究

GeneBench 是 OpenAI 新推出的 eval，测试多阶段遗传学和定量生物学数据分析。这些任务通常对应科研专家几天到几周的工作量。GPT-5.5 得分 25.0%，GPT-5.4 是 19.0%，GPT-5.5 Pro 达到 33.2%

BixBench（真实生物信息学和数据分析 benchmark）：GPT-5.5 得分 80.5%，GPT-5.4 是 74.0%

GPT-5.5 发布，详细解读

Academic 评测数据

Ramsey 数新证明

GPT-5.5 的内部版本配合自定义工具链，发现了关于 Ramsey 数的一个新证明。Ramsey 数是组合数学的核心对象，研究结果稀少且技术难度高。这个证明后来在 Lean 中完成了形式化验证

GPT-5.5 发布，详细解读

推理效率

GPT-5.5 更大更强，但实际延迟和 GPT-5.4 一样

此前，OpenAI 用固定数量的静态分区来平衡 GPU 上的计算负载

而在新版本中，Codex 分析了数周的生产流量数据，写了自定义的启发式分区算法。这一项改进让 token 生成速度提升了超过 20%

GPT-5.5 发布，详细解读

模型帮忙优化了自己运行的基础设施

网络安全

GPT-5.5 的网络安全能力被 OpenAI Preparedness Framework 评为 High（生物/化学能力同为 High）。没有达到 Critical 级别

CyberGym81.8%，vs GPT-5.4 的 79.0%，vs Claude Opus 4.7 的 73.1%

CTF 挑战任务内部扩展版：88.1%，vs GPT-5.4 的 83.7%

与此同时，GPT-5.5 也发布同时推出了一个新项目：生物安全漏洞赏金

GPT-5.5 发布，详细解读

规则是这样，OpenAI 准备了 5 个生物安全问题，参与者需要找到一条「通用越狱 prompt」，在 Codex Desktop 的干净对话里，一次性通过全部 5 个问题，且不触发审核，就算越狱成功

参与地址在这：https://openai.com/index/gpt-5-5-bio-bug-bounty/

第一个成功的通用越狱，奖金 $25,000。部分突破可能获得较小奖励

申请窗口2026 年 4 月 23 日开放，6 月 22 日截止，滚动审核

测试窗口2026 年 4 月 28 日至 7 月 27 日

准入条件需要现有 ChatGPT 账号，签署 NDA

保密要求所有 prompt、输出和发现均受保密协议覆盖

面向有 AI 红队、安全或生物安全经验的研究者

可用性与定价

ChatGPT

GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用户

Codex

GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 用户，400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍，成本 2.5 倍

API（即将上线）

gpt-5.5$5/1M input tokens，$30/1M output tokens，1M 上下文窗口

gpt-5.5-pro$30/1M input tokens，$180/1M output tokens

Batch / Flex标准价的一半

Priority标准价的 2.5 倍

GPT-5.5 单价比 GPT-5.4 高，但 token 效率也更高

OpenAI 表示在 Codex 里，GPT-5.5 对大多数用户来说，实际消耗的 token 比 GPT-5.4 更少

完整 Benchmark 数据

以下是 OpenAI 公布的全部评测数据，按类别整理。所有 GPT 评测在 reasoning effort 设为 xhigh 的研究环境中进行

GPT-5.5 发布，详细解读

Coding 评测表

GPT-5.5 发布，详细解读

Professional 评测表

GPT-5.5 发布，详细解读

Computer Use and Vision 评测表

GPT-5.5 发布，详细解读

Tool Use 评测表

GPT-5.5 发布，详细解读

Academic 评测表

GPT-5.5 发布，详细解读

Cybersecurity 评测表

GPT-5.5 发布，详细解读

Long Context 评测表

GPT-5.5 发布，详细解读

Abstract Reasoning 评测表

GPT-5.5 发布，详细解读

Abstract Reasoning 评测表

短板

SWE-Bench Pro 上 Claude Opus 4.7 报了 64.3%（GPT-5.5 是 58.6%），但 Anthropic 承认部分问题存在记忆化

MCP Atlas 上 Claude Opus 4.7（79.1%）和 Gemini 3.1 Pro（78.2%）均高于 GPT-5.5（75.3%）

Humanity's Last Exam（带工具）上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%

长上下文 256K 以上，Claude Opus 4.7 在部分指标上仍有优势

参考材料

→ 官方博客：openai.com/index/introducing-gpt-5-5/

→ System Card：deploymentsafety.openai.com/gpt-5-5

→ Bio Bug Bounty 申请：https://openai.com/index/gpt-5-5-bio-bug-bounty/

→ BixBench 论文：arxiv.org/abs/2503.00096

→ Artificial Analysis 方法论：artificialanalysis.ai/methodology/intelligence-benchmarking

→ API 定价：openai.com/api/pricing/

文章来自于"赛博禅心"，作者 "金色传说大聪明"。

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装：https://www.deepbi.com/

【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0