实测ChatGPT最新生图模型三大发现

下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
实测ChatGPT最新生图模型三大发现
2026-04-24 10:09

实测ChatGPT最新生图模型三大发现


AI第一次从包工头,变成了建筑设计师。


以前我们混互联网论坛时,常说「无图无真相」,意思是你说的话我不信,有本事就把图或照片发上来。


之所以会这样,原因很简单,当时Photoshop门槛很高,会P图的人在论坛上凤毛麟角,大家默认图片的真实性远高于文字。


但过去这半年,AI生图领域的竞争异常激烈,很多人可能只是耳闻,却不清楚具体激烈程度。我来和你盘点一下。


首先是2025年8月,谷歌发布图像模型Nano Banana,一下子把AI生图的天花板抬高了一大截。


而在年底,面对谷歌Gemini 3+Nano Banana的全面攻势,山姆·奥特曼在公司内部拉响「红色警报」(Code Red),要求全员集中资源攻坚图像生成能力。


随后,他们快速推出了GPT-Image-1.5版本,虽然在一些跑分榜上领先,但在消费侧和用户侧都没激起什么水花,大家还是更青睐谷歌的模型。这是为什么呢?


每当新的AI生图模型发布,我都会第一时间上手试用。对比同期的王者Nano Banana,GPT-Image-1.5的质量没有多少提升,细节刻画落后一截,再加上谷歌坐拥庞大用户基数,数据飞轮转得更快。


著名产品大神俞军在《俞军产品方法论》中提出经典公式:


用户价值 = 新体验 - 旧体验 - 替换成本


这个公式深刻揭示了用户选择产品的底层逻辑,只有当新产品的新体验显著超过旧体验加替换成本的和,用户才愿意尝试或切换产品。放到这个例子里,就是GPT-Image-1.5的能力提升,不足以让用户放弃原有习惯迁移到新产品上。


但2026年4月21日,OpenAI的正式反攻来了——GPT-Image-2


今天我想和你聊的不是它画得多好看,现在几家大模型都能做到这一点。我想说的是,这次AI生图的底层逻辑彻底变了


过去这些年,所有AI生图模型的工作方式本质都一样:你写一段描述,越详细越好,模型照着描述渲染图片。你是甲方,AI是执行者,描述越精确,出图效果越好。


所以整个行业都在卷「提示词工程」,谁的指令写得好,谁的图就好看。这也催生了大量生图提示词网站,我自己就收藏了很多。


早前用Midjourney时,我每天都会找到几张别人做的很厉害的AI图片,然后抄他们的提示词,忍不住想「他怎么这么会写提示词,怎么知道这么多冷僻的艺术单词?」


而Midjourney退位后,谷歌的Nano Banana模型成了这个逻辑的极致。它是个非常强的设计师,你说什么它画什么,又快又好。


但GPT-Image-2给我的感觉完全不同:它不再是简单的设计师,更像一个设计总监带着一个小团队


我举个细节说明。用它生图时,你的屏幕上会出现一串状态提示:正在创建图片→先打个草稿→生成初稿中→搭好场景→打磨细节→收尾中→最后润色中→最后微调一下。


看到这串流程,你会想到什么?我当时的第一反应是,这不是一个人在干活,而是有人先出草图,有人搭场景,有人打磨细节,最后还有人做整体润色。就像以前你对面是一个设计师,现在是一整个设计部门,由设计总监带队。


你可能会说,这只是界面提示,做做样子而已。但这个「样子」背后,是AI真实的能力变化。我做了一系列实测,分享三个发现,一个比一个令人震撼。


01 基本功补上了


先说文字渲染,这是AI生图出了名的老毛病,在行业里是公开的笑话。


2024年,TechCrunch的一位科技记者让AI画一张墨西哥餐厅的菜单,出来的结果里单词大多是乱码,这张截图当时在X上疯传。


实测ChatGPT最新生图模型三大发现

▲ 2024年DALL-E 3生成的乱码菜单


而今年,同一位记者用同一段提示词测试GPT-Image-2,出来的菜单可以直接拿到餐厅使用,拼写无误,排版合理。


记者唯一的吐槽是:「酸橘汁腌鱼(ceviche verde)13.50美元,便宜得让我怀疑鱼的质量。」


实测ChatGPT最新生图模型三大发现

▲ 2026年GPT-Image-2生成的完整菜单


这不是「进步了一点」,而是一次跨越。而且它不只是支持英文,中文、日文、韩文都能完美适配。这件事我要特别展开说。


以前我用AI生图,流程非常割裂。AI能帮我生成好看的背景图,但上面不能加字,中文字一加就乱码、错笔画、多偏旁,惨不忍睹。所以实际工作流程是让AI画背景,再自己手工加文字。很多人也默认这个问题难解决,都是自己再上手改。


但这个版本,搞定了中文渲染问题。为什么原本以为很难的中文字问题能顺利解决?在了解了这个模型的研发团队后,我发现一个有趣的细节。


研究负责人陈博远,MIT电子工程与计算机科学博士,本科伯克利,博士期间辅修哲学。官方博客里,展示了他直接用模型生成的一整页全中文彩色漫画,讲的就是他在OpenAI做中文文本渲染优化的故事。


漫画分五排,从他对着电脑埋头干活,到为家乡无锡生成多语言海报,到团队集体兴奋,再到收到奥特曼的祝贺短信。最后一排是重头戏:奥特曼发来一张图,上面写着「稳稳地接住你」,他当场破防。


你看,这张漫画本身,就是对中文文字渲染能力最好的证明。


实测ChatGPT最新生图模型三大发现

▲ 用GPT-Image-2生成的全中文彩色漫画


而整个图像系列的团队负责人加布里埃尔·吴(Gabriel Goh),也在社交媒体上晒出了一张团队成员的AI全家福。评论区直接有网友感叹:怎么全是亚洲人?


实测ChatGPT最新生图模型三大发现

▲ OpenAI图像生成团队AI全家福


我觉得正是核心团队里有深厚的中文背景,所以这个版本的中文渲染能力有质的飞跃。因为做这件事的人,自己就是中文使用者,知道中文排版应该长什么样。


对我们中文内容创作者来说,这才算真正开门。


02 它会替你思考,不只是听指令


比基本功更重要的,是第二个发现。


我做了个测试,把一篇几千字的《快刀广播站》文稿扔进去,没写任何复杂提示词,只说了一句话:「帮我生成这篇文章的信息图」。


结果出来的长图逻辑清晰、层级分明,关键概念都被准确提炼出来。它没有问我「你想要什么风格」,也没有问「重点是什么」,而是自己读完文稿,自己判断,自己出图


实测ChatGPT最新生图模型三大发现

▲ 只扔了一段文稿,AI自动生成的信息图


还有一个更极端的例子。测试书的封面设计时,我只说了句「一本书的封面,体现千行百业都在用AI」,没多说任何信息。


它自己设计了书名和副标题,自己构思了封面的意境,出来的结果完全没有违和感,就像真正读过这本书的设计师做的。


实测ChatGPT最新生图模型三大发现

▲ 只给了一句话,AI自主完成的封面


而在官方演示里,OpenAI研究员杨宇光(Yuguang Yang)上传了一份70页GPT-3的PDF文件,要求直接生成一个7页的PPT。AI能自行读懂文件内容,完成PPT,有排版设计、图表信息完整——不是随便配张图,而是真正读懂后再创作。


实测ChatGPT最新生图模型三大发现

▲ 上传70页PDF,AI自动生成7页完整PPT


这就是设计师和设计总监的区别。


设计师照你的需求干活,你说什么他画什么;设计总监会先了解你的业务、审美和想要的感觉,再给出方案。你不需要事先想好所有细节,因为他会替你考虑。


03 生图一致性提升


第三个发现,证明这不是单点突破,而是系统性能力提升


以前用AI生成多张图片,最大的痛点是保持一致性:生成一组产品图,风格前后对不上;想做连载漫画,主角长相每一格都在变。要拼成一套连贯内容,需要大量手工修改。


这次GPT-Image-2一次请求最多能生成8张连贯图,人物外貌、服装、风格、光影,跨图保持一致。


在发布会上,研究员宋基桓上传了自己的照片,让模型生成8套夏日穿搭,再要求从多个角度展示第一套穿搭。


8张图里,他的面部特征全程一致,不同角度、不同姿势,却能一眼认出是同一个人,就像真实试衣的效果。


实测ChatGPT最新生图模型三大发现


实测ChatGPT最新生图模型三大发现

▲ 8套穿搭,同一人物面部特征一致


我自己测试的是一组6格连贯漫画,描述的是一个上班族每天通勤路上听快刀广播站的故事。6个场景、6张图,同一个人物、同一种风格,温暖色调全程统一。


前这种效果要花大量时间手动对齐,现在一次请求就能直接生成。当然,因为我没给更多产品信息或参考,就简单描述了下场景,所以在一些呈现上还不够准确。


实测ChatGPT最新生图模型三大发现

▲ 6格连贯漫画,同一人物风格贯穿始终


提示词:生成6张连贯的漫画,描述一个上班族每天通勤路上听得到App上快刀广播站的故事:第1格:他戴着耳机挤地铁,神情茫然;第2格:听到一条AI新闻,眼睛亮了;第3格:在办公室和同事分享,同事惊讶;第4格:午饭时间用AI完成了以前要一下午的报告;第5格:向老板汇报,老板竖起大拇指;第6格:晚上回家路上,他已经在向另一位路人推荐这档节目。人物:男性,30岁左右,格子衬衫,扁平插画风,人物外貌全程一致,温暖色调。


你看,这三件事加在一起——基本功补上了,会替你思考了,还能成体系交付。你面对的不再是一个接单干活的设计师,而是一个真正能扛项目的设计总监。


04 这次变化的底层逻辑


这个变化的底层逻辑是什么?我觉得有一段分析说到了点子上。专注AI领域的独立媒体Implicator.ai在拆解模型时写道:


谷歌是把推理能力塞进了图像模型,OpenAI是把图像工具塞进了推理模型。


这句话值得深入思考。Nano Banana的思路是先有一个图像模型,再往里面添加推理能力,本质上还是生图工具的进化;OpenAI的思路是先有一个推理模型,再给它装上画图能力,本质上是一个会思考的大脑在学习新技能。


一个是让会画画的变聪明,一个是让聪明人学会画画。如果这段内容你觉得有点绕,建议停下来好好想想。老实说,这是最让我醍醐灌顶的一句话,两条路起点不同,天花板也截然不同。


此外,数据能直观体现差距。在Arena文生图榜单(Image Arena)上,GPT-Image-2比第二名Nano Banana 2领先241分。


这是Image Arena有史以来最大的领先差距,不是「领先一步」,而是领先一个量级。


实测ChatGPT最新生图模型三大发现

▲ Arena文生图榜单


05 普通人能抓住什么机会?


说了这么多技术细节,咱们普通人能抓住什么机会?


我觉得最直接的变化是,你不再需要纠结「怎么跟AI说话」了。过去几年,很多人花大量时间学习写提示词。这件事本身说明一个问题:AI太需要被「伺候」了。你得用它听得懂的语言沟通,否则结果就会跑偏。


但现在不一样了,你只需要知道自己要什么。把文件扔进去,把想法说出来,它自己去读、去思考、去创作。这个变化对普通人来说,意义比任何跑分数据都大。


而具体到工作场景,变化已经在发生


做内容的人感触应该最深。以前一张好配图要花一两个小时——找版权图、用PS编辑、加文字、调排版,有些还要找专业设计师。现在花三五分钟,各种复杂视觉图片能直接生成。


创业早期的人也能受益。创业初期最难的事之一就是没钱请设计师,但产品还在验证阶段,又必须做视觉物料,很多人就卡在这道坎上。现在AI生成的各类海报、运营物料等在创业初期基本完全够用,这道门槛被直接消灭了。


还有一个特别实用的场景是做客户提案。比如见客户前,针对他们的需求方向直接生成三个不同视觉风格的方案,摆在桌上让客户选。AI把提案过程从「你猜我想要什么」变成「你给我选哪个」,决策速度至少快了一倍以上


当然,有一点要说明白,它是设计总监,但不是万能的


OpenAI自己也承认,新模型在应对折纸步骤图、魔方这种需要精密三维物理逻辑的任务仍存在问题;标签和图表,尤其是带精确箭头指向或者部件标注的内容,仍需人工审核准确性。


咱们知道这几个坑,可以轻松绕开,不用因为一次失误就否定这个工具。


06 AI生图的变化


说到这里,我想说,AI生图已经走过三个阶段。


第一个阶段是「能用但很丑」,大家把它当玩具;第二个阶段是「好看但要调教」,催生了整个提示词工程行业;现在进入第三个阶段,「你只需要说清楚要什么,剩下的它来想」。


从2023年开始,我一直在用同一句提示词测试不同时代的AI生图模型:


一对年轻的中国情侣,穿着夹克和牛仔裤,坐在屋顶上,背景是80年代的北京。


这句话同时考验四件事:面部细节、服装质感、空间透视、年代氛围感


2023年生成的图片简直不像人类;2025年Nano Banana让我第一次觉得「有点意思」,但人物虽然精细了,背景还是一塌糊涂。


实测ChatGPT最新生图模型三大发现

▲ 同一句提示词,不同年份不同AI生成结果对比


但就在这周,我用GPT-Image-2测试的结果让我惊喜。光影、面部细节、牛仔裤的褶皱、远处楼房的年代感,第一次让我觉得AI真的「看见」了80年代的北京。


那对年轻情侣脸上的神态,符合80年代时髦青年的特有装扮,背后大楼上「北京百货大楼」的字样,更是让我倍感意外。


实测ChatGPT最新生图模型三大发现

▲ GPT-Image-2生成的80年代北京


然后,我把2023年到现在的所有测试作品,在公众号发了一篇贴图:


从 Midjourney 到 GPT-image-2,三年变化


让我吃惊的是,有用户用一模一样的提示词,只把「北京」换成「深圳」,生成的图片背景就不再是「北京百货大楼」,而是两个极具特色的大广告牌:一个写着「深圳经济特区好」,另一个楼顶上的巨大霓虹灯牌写着「时间就是金钱,效率就是生命」。


实测ChatGPT最新生图模型三大发现

▲ AI生图来自用户@東深的学习笔记


这里也推荐你去看看这条贴图的留言区里大家生成的图片。要知道每个人的提示词里根本没有这些细节,全是AI自己思考后,还原的80年代的样子。


07 结语


最后,评价一个AI工具以前看它听不听话,现在要看它会不会替你想。


借着这个新模型,我想跟你说件事。在新工具出现时,很多朋友不仅想学习怎么用,还想知道到底选哪个好。所以我准备在我的视频号「快刀青衣学AI」上,开辟一个新的直播栏目,帮大家直播评测各种AI产品。


我的本职工作是产品经理,需要深度体验各类产品。以前主要做软件产品,2025年我们做了GetSeed AI录音卡,现在我对硬件产品也很感兴趣。


这个AI评测直播栏目暂定为「快刀实验室」,我想它会有三个特点:


第一,需求都来自用户点单。大家呼声高的,我就去评测。


第二,我会让AI重度参与评测过程。比如出测试题,把几个不同的AI组成评审团。


第三,最重要的,这个评测背后不会有任何商业化行为。未来你可以说我的评测不专业,但不能说我收钱了。


如果你对这个评测感兴趣,或者想点单,可以点击下方链接预约第一期直播,就在4月27日晚上7点,欢迎你一起参与进来。


文章来自于"快刀青衣",作者 "快刀青衣"。

1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群