首个🦞龙虾大模型排行榜来了!两个国产 AI 杀进全球前三,养虾前必看

AITNT
未登录
正文
资源拓展
首个🦞龙虾大模型排行榜来了!两个国产 AI 杀进全球前三,养虾前必看
2026-03-09 10:51

你现在养了几只龙虾?


这就是现在打招呼最常见的问题,上周腾讯深圳总部排起龙等着免费装 OpenClaw,真是一代人有一代人的鸡蛋。


首个🦞龙虾大模型排行榜来了!两个国产 AI 杀进全球前三,养虾前必看


黄仁勋也盛赞 OpenClaw 为「有史以来最重要的软件发布」,认为它已经证明了 AI 在高度个性化环境中,能够完美复刻人类的复杂工作流。


养龙虾太过火爆,也终于出现专门针对 OpenClaw 的基准测试 PinchBench,用于评估大语言模型在 OpenClaw 任务中的表现。


首个🦞龙虾大模型排行榜来了!两个国产 AI 杀进全球前三,养虾前必看


PinchBench 评分方式也很硬核,有的任务看代码能不能跑通(自动化检查),有的看写得好不好(Claude Opus 当评委),还有的是两者结合。所有题目和答案都开源在 GitHub 上,谁都可以去验货。


首个🦞龙虾大模型排行榜来了!两个国产 AI 杀进全球前三,养虾前必看


今天,OpenClaw 创始人 Peter Steinberger 分享这个龙虾基准测试排行榜。


PinchBench 一口气测了 32 款主流大模型,从成功率、速度、费用三个维度,看看哪个模型最适合养龙虾。


PinchBench 官网🔗 https://pinchbench.com/


Gemini 3 Flash 成功率最高,国产模型也杀疯了


来看最重磅的成功率排名。


首个🦞龙虾大模型排行榜来了!两个国产 AI 杀进全球前三,养虾前必看


Google 的 Gemini 3 Flash Preview 以 95.1% 的成功率夺冠,这个成绩说实话让我有点意外。因为 Flash 系列一直是 Gemini 的「轻量版」,主打快和便宜,没想到这次在准确率上直接把自家 Pro 老大哥和 Claude、GPT 系列全超了。


这说明Google 在模型效率优化上是真的下了功夫。轻量模型不代表能力弱,关键看怎么调。


Gemini 3.1 Flash-Lite 更多介绍可以查看 APPSO 推文:刚刚,GPT-5.3 新模型撞车 Gemini,OpenClaw:谢谢你们


第二名是 MiniMax M2.1,成功率 93.6%。国产模型真的站起来了,MiniMax 的表现相当亮眼,成功压过了 Claude Sonnet 4.5(92.7%)和 GPT-4o(85.2%)。


 Kimi K2.5 紧随其后,成功率 93.4%。Kimi 的长文本能力一直很强,这次在编程任务上也证明了自己。和 MiniMax 一起,国产双雄直接占据了 TOP3 的两个席位。


再往后看,Claude Sonnet 4.5 排第四(92.7%),Gemini 3 Pro 第五(91.7%),Claude Haiku 4.5 第六(90.8%)。


有意思的是,Claude Opus 4.6 作为 Anthropic 的旗舰大模型,成功率只有 90.6%,排在第七。


看来「大」不一定「强」,至少在编程这个场景下,中端模型反而更香。


唯快不破,MiniMax 赢麻了


在开发这些重度任务中,谁都不想对着屏幕干等。速度接影响干活的心情。


MiniMax M2.5 以 105.96 秒的成绩拿下速度冠军,完成全部测试任务。什么概念?比第二名 Gemini 2.0 Flash 只快了 0.09 秒,但第一就是第一。


首个🦞龙虾大模型排行榜来了!两个国产 AI 杀进全球前三,养虾前必看


第三名 Llama 3.1 70B(106.14 秒)、第四名 Gemini 1.5 Pro(106.85 秒)、第五名 Mistral Large(107.72 秒)——这几个差距都不大,基本在同一梯队。


但往下看就有意思了。


Claude Sonnet 4 用了 137.66 秒,比第一梯队慢了 30 秒。Gemini 3 Pro 更是用了 239.55 秒,是 MiniMax M2.5 的两倍多。


这说明一个规律:轻量级模型普遍更快。如果你做的是快速原型开发、需要频繁迭代,选轻量模型准没错。但如果是那种「跑一遍就行」的任务,等等大模型也无妨。


怎么养龙虾最划算


养龙虾,精打细算很重要,毕竟很多OpenClaw 任务都是 Token 无底洞,稍不留神就能让你怀疑人生。


首个🦞龙虾大模型排行榜来了!两个国产 AI 杀进全球前三,养虾前必看


GPT-5 Nano 以 0.03 美元的成本成为全场最便宜的选择,成功率 85.8%。虽然准确率不算顶尖,但这个价格……还要什么自行车?适合预算有限、对错误容忍度高的场景。


Gemini 2.5 Flash Lite 排第二,只要 0.05 美元,成功率 83.2%。这个性价比就很能打了——成本是 GPT-5 Nano 的不到两倍,成功率只低了 2.6 个百分点。


MiniMax M2.1 排第五,成本 0.14 美元,但别忘了它的成功率是 93.6%。算下来每百分点的成本只有 0.0015 美元,性价比极高。


再看高端模型的成本,就有点触目惊心了。


Claude Opus 4.6 完成测试要花 5.89 美元,是 GPT-5 Nano 的将近 200 倍。但它的成功率只有 90.6%,比 MiniMax M2.1 还低了 3 个百分点。


这账怎么算都不划算。除非你对 Claude 有特殊的品牌信仰,否则从纯性价比角度,中端模型显然是更理性的选择。


🦞龙虾养殖怎么选


看完三个维度的榜单,相信你已经有了自己的判断。这里 APPSO 再给大家几个场景化的建议:


🏆 如果你追求成功率,无脑选 Gemini 3 Flash


95.1% 的成功率 + 0.72 美元的成本,目前综合表现最优。适合对代码质量要求高的生产环境,出错的代价远大于模型成本的时候,选它准没错。


⚡ 如果你追求速度,选 MiniMax M2.5 或 Gemini 2.0 Flash


都在 106 秒左右完成全部任务,适合快速原型开发、需要频繁迭代的场景。时间就是金钱,这俩能帮你省下不少耐心。


💰 如果你追求性价比,选 Gemini 2.5 Flash Lite


0.05 美元的成本,83.2% 的成功率,是入门「养龙虾」的最佳选择。个人项目、小团队、预算有限的场景,闭眼入。


🇨🇳 如果想少折腾倾向国产模型,MiniMax M2.1 和 Kimi K2.5 都很能打


MiniMax M2.1 成功率 93.6% 排第二,Kimi K2.5 成功率 93.4% 排第三,两款国产模型都已经跻身第一梯队。而且 MiniMax 的速度还是冠军,性价比也极高,值得重点关注。


从这次 PinchBench 的榜单可以看出,Agent 已经进入了「百花齐放」的时代。Google 的 Gemini 系列在效率和成本上全面领先,国产模型 MiniMax 和 Kimi 紧随其后,OpenAI 和 Anthropic 则在高端市场保持竞争力。


对于开发者来说,好消息是选择越来越多了。坏消息是……选择困难症可能更严重了。


但没关系,记住一个原则:没有最好的模型,只有最适合你场景的模型。生产环境看成功率,原型开发看速度,个人项目看性价比,按需选择就好。


而且,APPSO 也想特别提醒大家,安装 OpenClaw 或许不用花费什么成本,但「养龙虾」消耗的 Token ,可比过去我们和 AI 对话要多得多


前几天 OpenClaw 在纽约办的聚会上不少用户分享自己的龙虾养殖心得,有人每个月在 Token上的花费高达1000-2000美元,更有一位「土豪」玩家每天烧掉 10 亿 tokens,没有信仰可禁不起这么烧钱。


首个🦞龙虾大模型排行榜来了!两个国产 AI 杀进全球前三,养虾前必看


尝鲜 OpenClaw 可以,但它其实并不适合所有人,目前有很多任务用龙虾也并非最优解,更大的意义是可以感受 AI 带来全新的交互体验。


最后,希望你能够拥有适合你的龙虾。如果你想快速上手,不妨回顾 APPSO 这个🦞龙虾入门视频👇

 

文章来自于“APPSO”,作者 “APPSO”。

1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群