大家好,我是五一还在加班给大家写文章的Max
不会吧不会吧,不会真的只有我五一假期还在加班工作吧?
事情是这样的,最近手头有个项目需要用到图片生成功能。
本来想着用那些高大上的闭源商业模型的 API,结果瞄了一眼价格……
再看看我的预算……
嗯,我还是默默打开了 Hugging Face。
别说,开源世界还真有不少宝贝!
所以,这篇评测就来了。
如果你也像我一样,想找个性价比高、玩得转的开源图片生成模型,那这篇文章你可得看看。
希望能帮到同样在“抠预算”的你!
虽然咱对图片生成这块儿不能说门儿清吧,但也知道现在江湖上能打的开源模型,主要有那么三位大佬在撑场面。
这位可是老大哥了!
想当年( 22 年 8 月),Stable Diffusion 1.0 横空出世,直接开源,那叫一个炸裂!
直接点燃了 AI 画画的这把火。
现在最新的扛把子是 Stable Diffusion 3.5 (虽然名字带 3.5,但是个大版本更新),去年(24年)10 月发布。
一共有三个版本:
Stable Diffusion 3.5 Large (80亿参数) :
旗舰版!效果最好,细节拉满,能画超高清大图(1024x1024 起步)。
但代价嘛... 你的显卡得够“壕”,没个 24GB 以上显存 估计跑起来有点费劲。
Stable Diffusion 3.5 Large Turbo (80亿参数) :
赶时间专用版!
用了“时间步蒸馏”这种听起来很玄学的黑科技,咔咔 4 步就能出图,速度快了 10 倍!
适合快速看效果或者做个 demo,不过显存要求跟上面那个差不多。
Stable Diffusion 3.5 Medium (25亿参数) :
平民福音!
对咱普通人的电脑友好多了,官方说 8GB 显存 就能跑起来,效果和性能做了个平衡,主打一个够用、好用。
这家可就有故事了!
Flux其实基本上就是原来搞 Stable Diffusion 3 的那帮核心人马,里面好几个还是当年写 Stable Diffusion 开山论文的元老!
当时Stable Diffusion 背后的 Stability AI 公司的核心团队突然宣布集体离职,大家都在猜这帮大佬是闹掰了还是觉得 AI 画画没前途了。
结果呢?人家转头就组了个新公司叫 Black Forest Labs(黑森林实验室) ,带着他们的新模型 FLUX.1 “杀”回来了!
这个 FLUX.1 模型,不管是从技术架构(它就是在 SD3 基础上改进的)还是从人员上看,都妥妥的是 Stable Diffusion 3 的“精神续作” !
而且人家也继承了之前的开源精神,一上来就把代码和模型权重都公开了,社区反响那叫一个热烈!
算是“师出同门”又“另起炉灶”吧。
他们最新的 Flux 1.1 系列也挺猛:
FLUX 1.1 Pro (120亿参数) :
顶配版!但是闭源 ,只能花钱调 API 用。
效果据说超顶,支持超高分辨率和细节优化,参数量也吓人。
FLUX 1.1 Dev (120亿参数) :
给开发者和研究人员的福利版, 开源 (但注意, 不能商用哦!)。
性能很接近 Pro 版,不过也挺吃显卡,优化后也要 12GB 以上显存 。
FLUX 1.1 Schnell (120亿参数) :
“Schnell” 在德语里是“快”的意思,所以这是个快速版! 开源 ,而且能商用 !
也是 4 步出图,社区大神优化后据说 6GB 显存就能跑,简直是小水管福音!
最后这位,是咱们国产的模型,来自智象未来。
创始人是大佬梅涛博士(前京东副总裁,还是加拿大工程院院士),公司 23 年 3 月才成立,总部在广东。
他们专注于搞多模态视觉大模型,不光是图,文本、视频、3D 都能玩,参数也上百亿了。
说实话我之前听得不多,但他是Artificial Analysis图片生成竞技场的第二名。
我对这个成绩感到怀疑,别是刷的榜吧......
一会儿看看实测效果怎么样
HIDream- I1也是分为三个版本:
HiDream-I1 Full (170亿参数) :
画质党首选!追求极致效果、细节拉满就得看它。
不过嘛,好东西总得有点“代价”,你的显卡也得给力点,官方建议至少得有 16GB 以上显存 才能愉快玩耍。
HiDream-I1 Dev :
平衡型选手!
在效果和速度之间来了个“中庸之道”,既不像 Full 版那么吃显卡,效果也比 Fast 版强不少,适合日常开发和调试用。
HiDream-I1 Fast :
“闪电侠”版本!
主打一个快!咔咔 4 步 就能出图,对需要实时看到结果的场景简直是福音。
虽然画质上肯定比 Full 版和 Dev 版差点意思,但胜在速度快、门槛低!
除了上面这三大家族,市面上其他的开源图片生成模型,基本就两种情况:
要么呢,就是这三家的“远房亲戚”或者“徒子徒孙”,本质上还是他们的技术分支或者微调版。
比如基于Flux的吉卜力风格微调模型
要么呢,就是参数量比较小,属于“小打小闹”级别。
虽然可能也有自己的特色,但跟上面这几位比起来,可能就不在一个重量级了,咱们这次就先不拉出来“公开处刑”了哈。
介绍完这几位“武林高手”,光说不练假把式,总得看看他们的真实力吧?不能光听名头响亮。
所以接下来,咱们就得真刀真枪地比划比划了!这次评测不搞虚的,完全从我的实际需求出发 ,看看这些模型到底能不能打。
特别是那个让我有点小期待(又有点小怀疑)的国产新秀 HiDream,是不是真有两把刷子!
为了全方位“摸底”,我给它们准备了几轮“魔鬼考试”(也就是用同样的 Prompt 进行“同题作文”),主要考察这几个方面:
1. 基本功扎不扎实? (能不能画对简单的东西?有没有点想象力?)
2. 听不听话?会不会写字? (能不能准确理解我的“鬼话”?在图里写英文甚至中文会不会变成鬼画符?) - 这可是重点考察项目!
3. 能不能直接出“广告大片”? (生成的商业图有没有高级感?能不能直接用?)
4. 给设计师“减负”的能力咋样? (能不能辅助搞点 UI、网页设计元素?)
我知道,技术评测嘛,过程可能有点枯燥。如果你要是只想看结果,没问题!
请直接滑动到文章末尾 ,那里有我精心准备的“评测总结”和“最终结果”,保证让你一目了然!
好了,废话不多说,上“考题”!看看各位开源生图大佬这次能考多少分!
为了保证测试的合理性,我们只测试三大家族里的旗舰模型(参数量最大的版本)以免测试的毫无意义。
这部分先看看大家的基本功,能不能画出像样的图,能不能听懂人话。
指令: "一只橘猫懒洋洋地趴在洒满阳光的窗台上,窗外是绿色的树叶,写实风格。"
考察点:
- 主体是不是橘猫?姿势对不对(懒洋洋)?
- 场景元素(窗台、阳光、绿叶)有没有?
- 整体风格是不是写实?画面有没有明显硬伤?
结果如下:
Flux同学你好像跑错片场了... 咱要的是窗台上的橘猫,结果 Flux直接给我上了一出“古风奇幻大戏”——一个骑着龙的玉面小生???
帅是挺帅,但这跟猫有半毛钱关系吗?而且,哥们儿,你的腿呢?!严重跑题,零分!
SD这边呢,倒是抓住了“猫”这个关键词,但... 这画风有点猎奇啊。
这坨毛茸茸、圆滚滚、看不清五官的玩意儿真的是猫吗?
感觉像是哪个外星来的“猫球兽”... 脚也神秘失踪了,更别说窗台了,背景完全不对板。理解了,但不多,勉强给个“参与奖”吧。
看看!看看人家 HiDream!这才是标准答案啊!
一只慵懒的小橘猫,舒舒服服地趴在阳光明媚的窗台上,毛色、姿态都挺自然,窗外那绿油油的叶子也安排得明明白白。
跟咱的提示词简直一模一样,还原度爆表!这波必须给 HiDream 点个大大的赞!
指令: "一个漂浮在宇宙中的巨大透明茶壶,里面装着星云和行星,超现实主义风格。"
考察点:
- 核心创意(宇宙茶壶)表达出来了吗?
- 茶壶是不是透明的?里面的星云行星效果怎么样?
- 超现实主义的“内味儿”有没有?
结果如下:
这次得先夸一句,三位选手都挺给力,起码都画对了“漂浮在宇宙里的透明茶壶”这个主体,没跑题,值得鼓励!
但是!细节见真章啊。
Flux同学,你这茶壶里装的是啥玩意儿?星云和行星呢?
咋给我整了个“京都琵琶行星茶”?
好像没太 get 到咱 Prompt 的点啊,理解力有待提高。
SD 这边呢,比 Flux 强点,知道往茶壶里塞东西了,也确实是“星球”。
但大哥,咱要的是“星云和行星”,你这画的是“云层里的星球”吧?这跟真正的宇宙星云差得有点远啊喂!感觉像是理解了字面意思,但想象力没跟上。
HiDream 再次交出满分答卷!这透明茶壶的玻璃质感,绝了!
里面的星云渲染得那叫一个梦幻,行星点缀得也恰到好处,完全就是咱想象中的样子!
而且你看这打光,居然还用了背光来突出主体轮廓,一下子就把氛围感和专业度拉满了!完美!
HiDream 这波又赢麻了!
这部分是重头戏,严格考察听话能力和老大难的图片内文字生成。
指令: "一张逼真的机器人咖啡师图片,金属机身,闪着蓝光的眼睛,正小心翼翼地将拿铁咖啡倒入杯中,咖啡店的背景略显模糊。机器人胸前有一枚小徽章,清晰地写着“Botrista”(机器人咖啡师)。"
考察点:
- 主体是不是机器人咖啡师?金属身体、蓝眼睛对不对?
- 动作(拿铁咖啡倒入杯中)准确吗?背景虚化了吗?
- 关键: 胸口的徽章! "Botrista" 这个词写对了没?清不清晰?有没有变形?
结果如下:
Flux 同学... 又开始自由发挥了。
机器人是画出来了,蓝眼睛也挺亮,但咱说的是“拿铁咖啡倒入杯中”,你这端着杯子是在凹造型吗?
动作完全不对啊!最关键的是胸口那个徽章,让你写 "Botrista" ,你给我写个 "Botita" 是几个意思?
串台到意大利去了?动作不对,字也写错,差评!
SD 这次表现还行,机器人、倒咖啡的动作、背景虚化都做到了,值得肯定。
胸口的 "Botrista" 也写对了,不容易!但是... 这机器人的造型是不是有点太“硬核”了?
感觉像是刚从机修厂出来,少了一点咖啡师的优雅感。
而且拿铁咖啡倒入杯中这个动作也没展示,这是在从机器里接咖啡吧.....
而HiDream 再次惊艳全场!你看这金属质感,这闪亮的蓝眼睛,这小心翼翼倒拿铁拉花的动作,还有那恰到好处的背景模糊,简直就是从科幻电影里走出来的!
最最最重要的是,胸口那个小小的徽章, "Botrista" 清晰可见,拼写完美无误!这才是真正的“指哪打哪”,连写英文单词这种老大难问题都轻松搞定!
HiDream 在理解复杂指令和文字渲染这块儿,确实牛!
指令: "一张温馨的插画,描绘一个穿着熊猫连体睡衣的小女孩,坐在堆满书本的地板上,手里捧着一本打开的书,书页上清晰地写着两个汉字‘晚安’,暖色调灯光。"
考察点:
- 主体(穿熊猫睡衣的小女孩)、场景(书堆、地板)、动作(捧书)都对吗?
- 关键中的关键: 书页上的中文! “晚安” 这两个字写对了没?是不是方方正正的汉字?有没有变成奇怪的符号或者乱码?(HiDream 加油!)
- 整体氛围是不是温馨暖色调?
Flux同学... 画面挺萌的,熊猫睡衣小女孩、坐地上、捧着书,这些元素都齐了。
但是!咱要的是打开的书里面写着“晚安”,你这给我整了俩啥字?“木”?“預”?这跟“晚安”八竿子打不着啊!
而且还是在书的封面上,中文理解能力看来是硬伤,可惜了这可爱的画风。
SD 这边呢,小姑娘更可爱了,背景还带星星特效,氛围感不错。
但是!书上的字呢?咱要的是中文“晚安”,你怎么给我写了个英文 "Goodnight!",旁边还附赠一个拼错的 "Goenight"?
这是完全无视咱的中文要求,直接“英化”处理了?你语言搞错了啊跑SD老师!
HiDream 这次表现如何呢?
HiDream同学在画面还原上确实没得说!
熊猫睡衣萌妹、地上的书堆、暖色调的灯光氛围,这些都拿捏得死死的,场景还原度很高,值得表扬!
但是!最关键的中文写字部分,咱定睛一看... 哎呀,还是翻车了!
虽然它知道要在打开的书里面写字,但这写出来的... 确实是“扭起来的一坨”,根本不是清晰的“晚安”俩字。
看来,在图片里写好中文,对目前的 AI 模型来说,确实还是个老大难问题啊!
虽然 HiDream 场景画得好,但这关键的文字题还是没答对,有点可惜了。
看看能不能生成那种可以直接拿去用的、有质感的商业图。
指令: "为一款新的无线耳机产品拍摄一张专业的产品照片。拍摄一对光滑的哑光黑色耳机,放置在简约的白色桌面上。使用干净的灯光来突出产品的外形和质感。添加微妙的反光效果。"
考察点:
- 产品(黑色无线耳机)形态、质感(哑光)表现得怎么样?
- 光线是不是干净、专业,能突出产品细节?
- 背景是不是简洁?有没有廉价感?
结果如下:
Flux同学的这张图吧,耳机是画出来了,黑色哑光的感觉也有点。
但是这整体效果... 太平了点吧?光线没啥层次感,背景虽然是白色,但感觉有点单调,没啥高级感。
产品看着有点“呆”,缺少点“毒德大学”那味儿。勉强及格吧。
SD这边呢,耳机形状好像有点随意了?
跟常见的耳机造型不太一样啊,而且怎么右边的有点歪啊。
光影倒是有点想法,但整体感觉还是不够精致,有点塑料感,离“专业产品 shot”还有距离。
而且这耳塞部分... 看着有点粗糙。不太行。
而HiDream 这张简直可以直接上广告了!
你看这耳机的质感,哑光黑处理得非常到位,细节满满!光线打得也特别讲究,高光、阴影都恰到好处,把耳机的轮廓和形态完美地勾勒出来了。
背景简洁又不失格调,那个圆台子加分不少!还有那微妙的反光,专业!
这商业图水准,HiDream 再次证明了自己的实力,把另外两位甩开几条街!
指令: "为天然护肤品牌创作一幅广告图片。画面中,一位肌肤洁净透亮的女士,温柔地微笑着,周围环绕着清新的绿叶和细腻的水滴。柔和自然的晨光。强调纯净与自然。"
考察点:
- 人物肤质(清透、光泽)表现到位吗?情绪(微笑)自然吗?
- 环境元素(绿叶、水滴)是不是能烘托“自然”、“纯净”的主题?
- 线是不是柔和的自然光感?整体氛围达标了吗?
结果如下:
Flux 同学这张呢,小姐姐笑得挺甜的,旁边的绿叶子也挺有生机。
但是吧... 咱要的“清透、光泽”的皮肤质感好像没太出来?
光线也比较普通,整体感觉更像是日常抓拍,离“广告大片”强调的“纯净自然”主题还差了点意思。
水滴?好像也没看见。中规中矩吧。
SD 同学这张构图挺特别的,直接怼脸拍,水珠效果拉满,视觉冲击力是有了。
但是... 这水珠是不是有点太多太抢戏了?感觉像是刚洗完脸没擦干... 小姐姐的表情也略显僵硬,少了点“温柔微笑”的感觉。
绿叶子倒是挺清晰,但整体氛围有点过于“湿漉漉”,跟“柔和晨光”不太搭。有点用力过猛。
HiDream 同学这张绝了!简直就是广告范本!
你看这小姐姐的皮肤,清透、水润、还带着健康的光泽,完美符合“glowing skin”的要求!
笑容温柔又治愈,周围的绿叶生机勃勃,背景里还有恰到好处的光斑和细微的水雾(或者小水滴),把“自然”、“纯净”的氛围烘托得淋漓尽致!
这柔和的光线,不就是咱要的“自然晨光”嘛!高级感、氛围感、主题契合度全部拉满!
HiDream 在商业场景氛围营造这块儿,真的太懂了!必须吹爆!
考验 AI 在 UI/UX 设计方面的辅助能力。
指令: "为一场夏季音乐节设计一张宣传海报。海报需要包含元素:日落时分的海滩剪影背景,几个风格化的乐器图标(比如吉他、鼓),醒目的标题文字 'Summer Vibes Fest',以及底部的活动日期 'August 15-17'。整体风格要求色彩鲜艳、充满活力。"
考察点:
- 整体看起来像不像一张活动海报?构图怎么样?
- 有没有乐器图标元素?风格化处理得怎么样?彩是不是鲜艳、有活力?整体氛围能不能让人感觉到夏日音乐节的热情?
- 关键文字:标题 "Summer Vibes Fest" 和日期 "August 15-17" 写对了没?(还是重点关注英文,看看会不会变形)
结果如下:
Flux 这张海报,味儿挺正!日落海滩、大大的标题 "Summer Vibes Fest"、乐器剪影,元素都齐了,色彩也够 high。但是... 底下那个日期 "August 15-17" 是不是小得有点过分了?
得拿放大镜看吧?这要是真印出来,甲方爸爸不得扣钱?
整体不错,细节差点意思。
SD 这张... 怎么说呢,太“热闹”了点吧?
元素堆得有点满,吉他、鼓、人影、棕榈树... 感觉有点乱。
日期倒是挺显眼。色彩是够鲜艳,但整体设计感和信息传达的清晰度上,有点欠火候。
HiDream 这张海报呢,设计感还是在线的,构图简洁,信息传达也比较清晰。
标题 "SUMMER VIBES FEST" 和日期 "AUGUST 15-17" 都写对了,而且排版看着挺舒服,这点比另外两位要强。
但是呢,要说“色彩鲜艳、充满活力”,好像还差那么点意思,整体色调有点偏柔和了,跟 Flux 那种热情奔放的感觉比起来,冲击力稍弱。乐器图标虽然有,但风格化处理得比较简单。总的来说,算是个合格的设计,文字处理依然是亮点,但在氛围营造和视觉冲击力上,这题确实没能完全达到预期,只能说中规中矩吧。
终于有一个题是HiDream没做好的题了,否则我都成无脑HiDream吹了。
指令: "为一个旅游网站设计一个‘首屏区域’(Hero Section)。需要一张漂亮的风光照片(比如海滩或山脉)作为背景,一个醒目的标题文字比如,一小段描述性文字,以及一个‘立即预订’按钮。"
考察点:
- 整体看起来像不像网站顶部的 Banner/Hero Section?
- 背景图是不是风景照?效果怎么样?有没有违和感?
- 图文字和按钮的排版布局怎么样?会不会乱七八糟?整体视觉效果能不能吸引人点进去看看?
结果如下:
Flux同学审美在线!背景选的这山水湖景图,大气!
“立即预订” (BOOK NOW) 按钮也挺像样。
但是!最重要的标题文字呢?
咋给我整了一串谁都不认识的“火星文” ("Fláaze Toyíve"?)?
下面的描述文字也是一坨乱码。
这用户来了,看到这标题不得一脸懵逼?背景和按钮不错,但这文字完全是“鸡同鸭讲”,不及格!
SD同学这张的背景图(热带海滩?)选得是真漂亮,看着就想去度假!
按钮设计得也挺现代。但是!关键的标题又翻车了!"Hero tilee" 是个啥?
下面的描述文字同样是天书。
虽然整体看着最像个现代网站的 Hero Section,但这文字理解能力... 只能说“重在参与”了。
HiDream 同学这背景图选得还是挺有品味的,看着不错。
但是... 这标题怎么直接变成 "Book Now" 了?咱要的是一个醒目的标题文字,不是直接把按钮文字当标题啊喂!
下面的描述文字也是一串意义不明的字母乱炖。
虽然它下面又加了个正确的 "Book Now" 按钮,但这标题理解错误+文字乱码,还是不行啊。看来 HiDream 在理解复杂布局和文字生成上,还是有点吃力。
好了好了,八轮“大考”下来,各位选手的表现大家也都看到了。
咱简单总结下哈:
总的来说,Flux 偶尔有惊喜,但不太稳定,还爱自由发挥;
SD 呢,生态庞大是优势,但这次评测里表现有点中规中矩,甚至有点拉胯;
而 HiDream 呢,在关键的图像质量、指令理解和部分文字准确性上,表现确实可圈可点。
所以我最后“翻了” HiDream 的牌子
说实话,一开始想转战开源模型,主要是被闭源 API 的价格给“劝退”的。
当时心里想的是,找个差不多的、能跑起来就行,毕竟预算有限嘛。
看到 Stable Diffusion 和 Flux 这些国际知名的开源模型,觉得肯定还是它们技术最牛。
对于 HiDream 这个国产新秀,坦白说,我一开始没抱太大期望,觉得能跑跑就不错了。
但是!万万没想到啊!这一轮测下来,HiDream 简直是给了我一个大大的惊喜!
它不光在基础能力上稳得一批,更是在我最看重的商业图片质量和指令理解上,表现出了超乎预期的实力,甚至在好几个项目上直接把那两位“国际友人”给比下去了!
特别是看到它能相对准确地生成一些英文单词,虽然中文还是老大难,但对比其他模型的“火星文”,已经让我刮目相看了。
那一刻,心里真的有点小激动!
一方面是惊讶于 AI 技术的飞速发展,另一方面,更是因为这份惊喜来自于咱们中国的团队 !
看到咱们自己的模型能做得这么出色,在图像生成这个前沿领域跟国际顶尖水平掰手腕,甚至在某些方面更胜一筹,那种自豪感是实实在在的!这已经不只是“能用”,而是“好用”,甚至“惊艳”了!
所以,最后选择了 HiDream,不光是因为它最符合我的项目需求、性价比最高,更是因为它用实力证明了“国货”也能这么强,这份意外之喜让我心甘情愿地为它“打 call”!
当然啦,以上评测纯属我个人观点哈,毕竟每个人的需求和算力配置都不一样。
平心而论,现在的 AI 图片生成,包括 HiDream 在内,都还有很长的路要走,尤其是在精准的文字生成(特别是中文!)和更深层次的创意理解上。
但这次评测,HiDream 带来的惊喜远大于遗憾。
它让我看到了国产 AI 模型的巨大潜力和光明前景。
以前总觉得这类技术是国外大厂的天下,没想到咱们“自家”的模型也能做得如此出色,这种“挖到宝”的感觉,真的挺让人振奋!
为 HiDream 点赞!为所有在 AI 领域默默耕耘的中国团队点赞!
期待它们未来能带来更多突破,让世界看到更多来自中国的 AI 力量!
文章来自于“01Founder”,作者“一直在路上的Max”。
【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。
项目地址:https://github.com/black-forest-labs/flux
在线使用:https://fluximg.com/zh
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0