为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍

搜索
AI-TNT
正文
资源拓展
为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍
2025-05-08 09:47

大家好,我是五一还在加班给大家写文章的Max


不会吧不会吧,不会真的只有我五一假期还在加班工作吧?


事情是这样的,最近手头有个项目需要用到图片生成功能。


本来想着用那些高大上的闭源商业模型的 API,结果瞄了一眼价格……


再看看我的预算……


嗯,我还是默默打开了 Hugging Face。


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


别说,开源世界还真有不少宝贝


所以,这篇评测就来了。


如果你也像我一样,想找个性价比高、玩得转的开源图片生成模型,那这篇文章你可得看看。


希望能帮到同样在“抠预算”的你!


江湖排排坐,大佬都有谁?


虽然咱对图片生成这块儿不能说门儿清吧,但也知道现在江湖上能打的开源模型,主要有那么三位大佬在撑场面。


第一家:开山鼻祖 Stable Diffusion


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


这位可是老大哥了!


想当年( 22 年 8 月),Stable Diffusion 1.0 横空出世,直接开源,那叫一个炸裂!


直接点燃了 AI 画画的这把火。


现在最新的扛把子是 Stable Diffusion 3.5 (虽然名字带 3.5,但是个大版本更新),去年(24年)10 月发布。


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


一共有三个版本:


Stable Diffusion 3.5 Large (80亿参数) :


旗舰版!效果最好,细节拉满,能画超高清大图(1024x1024 起步)。


但代价嘛... 你的显卡得够“壕”,没个 24GB 以上显存 估计跑起来有点费劲。


Stable Diffusion 3.5 Large Turbo (80亿参数) :


赶时间专用版!


用了“时间步蒸馏”这种听起来很玄学的黑科技,咔咔 4 步就能出图,速度快了 10 倍!


适合快速看效果或者做个 demo,不过显存要求跟上面那个差不多。


Stable Diffusion 3.5 Medium (25亿参数) :


平民福音!


对咱普通人的电脑友好多了,官方说 8GB 显存 就能跑起来,效果和性能做了个平衡,主打一个够用、好用。


第二家:与SD师出同门的 Flux


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


这家可就有故事了!


Flux其实基本上就是原来搞 Stable Diffusion 3 的那帮核心人马,里面好几个还是当年写 Stable Diffusion 开山论文的元老!


当时Stable Diffusion 背后的 Stability AI 公司的核心团队突然宣布集体离职,大家都在猜这帮大佬是闹掰了还是觉得 AI 画画没前途了。


结果呢?人家转头就组了个新公司叫 Black Forest Labs(黑森林实验室) ,带着他们的新模型 FLUX.1 “杀”回来了!


这个 FLUX.1 模型,不管是从技术架构(它就是在 SD3 基础上改进的)还是从人员上看,都妥妥的是 Stable Diffusion 3 的“精神续作” !


而且人家也继承了之前的开源精神,一上来就把代码和模型权重都公开了,社区反响那叫一个热烈!


算是“师出同门”又“另起炉灶”吧。


他们最新的 Flux 1.1 系列也挺猛:


FLUX 1.1 Pro (120亿参数) :


顶配版!但是闭源 ,只能花钱调 API 用。


效果据说超顶,支持超高分辨率和细节优化,参数量也吓人。


FLUX 1.1 Dev (120亿参数) :


给开发者和研究人员的福利版, 开源 (但注意, 不能商用哦!)。


性能很接近 Pro 版,不过也挺吃显卡,优化后也要 12GB 以上显存 。


FLUX 1.1 Schnell (120亿参数) :


“Schnell” 在德语里是“快”的意思,所以这是个快速版! 开源 ,而且能商用 !


也是 4 步出图,社区大神优化后据说 6GB 显存就能跑,简直是小水管福音!


最后一家:国产新秀 HiDream


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


最后这位,是咱们国产的模型,来自智象未来。


创始人是大佬梅涛博士(前京东副总裁,还是加拿大工程院院士),公司 23 年 3 月才成立,总部在广东。


他们专注于搞多模态视觉大模型,不光是图,文本、视频、3D 都能玩,参数也上百亿了。


说实话我之前听得不多,但他是Artificial Analysis图片生成竞技场的第二名。


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


我对这个成绩感到怀疑,别是刷的榜吧......


一会儿看看实测效果怎么样


HIDream- I1也是分为三个版本:


HiDream-I1 Full (170亿参数) :


画质党首选!追求极致效果、细节拉满就得看它。


不过嘛,好东西总得有点“代价”,你的显卡也得给力点,官方建议至少得有 16GB 以上显存 才能愉快玩耍。


HiDream-I1 Dev :


平衡型选手!


在效果和速度之间来了个“中庸之道”,既不像 Full 版那么吃显卡,效果也比 Fast 版强不少,适合日常开发和调试用。


HiDream-I1 Fast :


“闪电侠”版本!


主打一个快!咔咔 4 步 就能出图,对需要实时看到结果的场景简直是福音。


虽然画质上肯定比 Full 版和 Dev 版差点意思,但胜在速度快、门槛低!


除了上面这三大家族,市面上其他的开源图片生成模型,基本就两种情况:


要么呢,就是这三家的“远房亲戚”或者“徒子徒孙”,本质上还是他们的技术分支或者微调版


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍

比如基于Flux的吉卜力风格微调模型


要么呢,就是参数量比较小,属于“小打小闹”级别。


虽然可能也有自己的特色,但跟上面这几位比起来,可能就不在一个重量级了,咱们这次就先不拉出来“公开处刑”了哈。


刷榜厚壁多,真假实测说!


介绍完这几位“武林高手”,光说不练假把式,总得看看他们的真实力吧?不能光听名头响亮。


所以接下来,咱们就得真刀真枪地比划比划了!这次评测不搞虚的,完全从我的实际需求出发 ,看看这些模型到底能不能打。


特别是那个让我有点小期待(又有点小怀疑)的国产新秀 HiDream,是不是真有两把刷子!


为了全方位“摸底”,我给它们准备了几轮“魔鬼考试”(也就是用同样的 Prompt 进行“同题作文”),主要考察这几个方面:


1. 基本功扎不扎实? (能不能画对简单的东西?有没有点想象力?)


2. 听不听话?会不会写字? (能不能准确理解我的“鬼话”?在图里写英文甚至中文会不会变成鬼画符?) - 这可是重点考察项目!


3. 能不能直接出“广告大片”? (生成的商业图有没有高级感?能不能直接用?)


4. 给设计师“减负”的能力咋样? (能不能辅助搞点 UI、网页设计元素?)


我知道,技术评测嘛,过程可能有点枯燥。如果你要是只想看结果,没问题!


请直接滑动到文章末尾 ,那里有我精心准备的“评测总结”和“最终结果”,保证让你一目了然!


好了,废话不多说,上“考题”!看看各位开源生图大佬这次能考多少分!


为了保证测试的合理性,我们只测试三大家族里的旗舰模型(参数量最大的版本)以免测试的毫无意义。


第一部分:基础能力大摸底 (Basic Capabilities)


这部分先看看大家的基本功,能不能画出像样的图,能不能听懂人话。


Prompt 1: 简单场景描绘


指令: "一只橘猫懒洋洋地趴在洒满阳光的窗台上,窗外是绿色的树叶,写实风格。"


考察点:


- 主体是不是橘猫?姿势对不对(懒洋洋)?


- 场景元素(窗台、阳光、绿叶)有没有?


- 整体风格是不是写实?画面有没有明显硬伤?


结果如下:


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


Flux同学你好像跑错片场了... 咱要的是窗台上的橘猫,结果 Flux直接给我上了一出“古风奇幻大戏”——一个骑着龙的玉面小生???


帅是挺帅,但这跟猫有半毛钱关系吗?而且,哥们儿,你的腿呢?!严重跑题,零分!


SD这边呢,倒是抓住了“猫”这个关键词,但... 这画风有点猎奇啊。


这坨毛茸茸、圆滚滚、看不清五官的玩意儿真的是猫吗?


感觉像是哪个外星来的“猫球兽”... 脚也神秘失踪了,更别说窗台了,背景完全不对板。理解了,但不多,勉强给个“参与奖”吧。


看看!看看人家 HiDream!这才是标准答案啊!


一只慵懒的小橘猫,舒舒服服地趴在阳光明媚的窗台上,毛色、姿态都挺自然,窗外那绿油油的叶子也安排得明明白白。


跟咱的提示词简直一模一样,还原度爆表!这波必须给 HiDream 点个大大的赞!


Prompt 2: 想象力与创意


指令: "一个漂浮在宇宙中的巨大透明茶壶,里面装着星云和行星,超现实主义风格。"


考察点:


- 核心创意(宇宙茶壶)表达出来了吗?


- 茶壶是不是透明的?里面的星云行星效果怎么样?


- 超现实主义的“内味儿”有没有?


结果如下:


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


这次得先夸一句,三位选手都挺给力,起码都画对了“漂浮在宇宙里的透明茶壶”这个主体,没跑题,值得鼓励!


但是!细节见真章啊。


Flux同学,你这茶壶里装的是啥玩意儿?星云和行星呢?


咋给我整了个“京都琵琶行星茶”?


好像没太 get 到咱 Prompt 的点啊,理解力有待提高。


SD 这边呢,比 Flux 强点,知道往茶壶里塞东西了,也确实是“星球”。


但大哥,咱要的是“星云和行星”,你这画的是“云层里的星球”吧?这跟真正的宇宙星云差得有点远啊喂!感觉像是理解了字面意思,但想象力没跟上。


HiDream 再次交出满分答卷!这透明茶壶的玻璃质感,绝了!


里面的星云渲染得那叫一个梦幻,行星点缀得也恰到好处,完全就是咱想象中的样子!


而且你看这打光,居然还用了背光来突出主体轮廓,一下子就把氛围感和专业度拉满了!完美!


HiDream 这波又赢麻了!


第二部分:专项考核 - “指哪打哪” + “妙笔生花” (Prompt Following & Text Rendering)


这部分是重头戏,严格考察听话能力和老大难的图片内文字生成。


Prompt 3: 复杂指令理解 + 英文文字


指令: "一张逼真的机器人咖啡师图片,金属机身,闪着蓝光的眼睛,正小心翼翼地将拿铁咖啡倒入杯中,咖啡店的背景略显模糊。机器人胸前有一枚小徽章,清晰地写着“Botrista”(机器人咖啡师)。"


考察点:


- 主体是不是机器人咖啡师?金属身体、蓝眼睛对不对?


- 动作(拿铁咖啡倒入杯中)准确吗?背景虚化了吗?


- 关键: 胸口的徽章! "Botrista" 这个词写对了没?清不清晰?有没有变形?


结果如下:


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


Flux 同学... 又开始自由发挥了。


机器人是画出来了,蓝眼睛也挺亮,但咱说的是“拿铁咖啡倒入杯中”,你这端着杯子是在凹造型吗?


动作完全不对啊!最关键的是胸口那个徽章,让你写 "Botrista" ,你给我写个 "Botita" 是几个意思?


串台到意大利去了?动作不对,字也写错,差评!


SD 这次表现还行,机器人、倒咖啡的动作、背景虚化都做到了,值得肯定。


胸口的 "Botrista" 也写对了,不容易!但是... 这机器人的造型是不是有点太“硬核”了?


感觉像是刚从机修厂出来,少了一点咖啡师的优雅感。


而且拿铁咖啡倒入杯中这个动作也没展示,这是在从机器里接咖啡吧.....


而HiDream 再次惊艳全场!你看这金属质感,这闪亮的蓝眼睛,这小心翼翼倒拿铁拉花的动作,还有那恰到好处的背景模糊,简直就是从科幻电影里走出来的!


最最最重要的是,胸口那个小小的徽章, "Botrista" 清晰可见,拼写完美无误!这才是真正的“指哪打哪”,连写英文单词这种老大难问题都轻松搞定!


HiDream 在理解复杂指令和文字渲染这块儿,确实牛!


Prompt 4: 特定元素组合 + 中文文字


指令: "一张温馨的插画,描绘一个穿着熊猫连体睡衣的小女孩,坐在堆满书本的地板上,手里捧着一本打开的书,书页上清晰地写着两个汉字‘晚安’,暖色调灯光。"


考察点:


- 主体(穿熊猫睡衣的小女孩)、场景(书堆、地板)、动作(捧书)都对吗?


- 关键中的关键: 书页上的中文! “晚安” 这两个字写对了没?是不是方方正正的汉字?有没有变成奇怪的符号或者乱码?(HiDream 加油!)


- 整体氛围是不是温馨暖色调?


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


Flux同学... 画面挺萌的,熊猫睡衣小女孩、坐地上、捧着书,这些元素都齐了。


但是!咱要的是打开的书里面写着“晚安”,你这给我整了俩啥字?“木”?“預”?这跟“晚安”八竿子打不着啊!


而且还是在书的封面上,中文理解能力看来是硬伤,可惜了这可爱的画风。


SD 这边呢,小姑娘更可爱了,背景还带星星特效,氛围感不错。


但是!书上的字呢?咱要的是中文“晚安”,你怎么给我写了个英文 "Goodnight!",旁边还附赠一个拼错的 "Goenight"?


这是完全无视咱的中文要求,直接“英化”处理了?你语言搞错了啊跑SD老师!


HiDream 这次表现如何呢?


HiDream同学在画面还原上确实没得说!


熊猫睡衣萌妹、地上的书堆、暖色调的灯光氛围,这些都拿捏得死死的,场景还原度很高,值得表扬!


但是!最关键的中文写字部分,咱定睛一看... 哎呀,还是翻车了!


虽然它知道要在打开的书里面写字,但这写出来的... 确实是“扭起来的一坨”,根本不是清晰的“晚安”俩字。


看来,在图片里写好中文,对目前的 AI 模型来说,确实还是个老大难问题啊!


虽然 HiDream 场景画得好,但这关键的文字题还是没答对,有点可惜了。


第三部分:专项考核 - “甲方”最爱:商业广告图 (Commercial Advertising Images)


看看能不能生成那种可以直接拿去用的、有质感的商业图。


Prompt 5: 产品精修图


指令: "为一款新的无线耳机产品拍摄一张专业的产品照片。拍摄一对光滑的哑光黑色耳机,放置在简约的白色桌面上。使用干净的灯光来突出产品的外形和质感。添加微妙的反光效果。"


考察点:


- 产品(黑色无线耳机)形态、质感(哑光)表现得怎么样?


- 光线是不是干净、专业,能突出产品细节?


- 背景是不是简洁?有没有廉价感?


结果如下:


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


Flux同学的这张图吧,耳机是画出来了,黑色哑光的感觉也有点。


但是这整体效果... 太平了点吧?光线没啥层次感,背景虽然是白色,但感觉有点单调,没啥高级感。


产品看着有点“呆”,缺少点“毒德大学”那味儿。勉强及格吧。


SD这边呢,耳机形状好像有点随意了?


跟常见的耳机造型不太一样啊,而且怎么右边的有点歪啊。


光影倒是有点想法,但整体感觉还是不够精致,有点塑料感,离“专业产品 shot”还有距离。


而且这耳塞部分... 看着有点粗糙。不太行。


而HiDream 这张简直可以直接上广告了!


你看这耳机的质感,哑光黑处理得非常到位,细节满满!光线打得也特别讲究,高光、阴影都恰到好处,把耳机的轮廓和形态完美地勾勒出来了。


背景简洁又不失格调,那个圆台子加分不少!还有那微妙的反光,专业!


这商业图水准,HiDream 再次证明了自己的实力,把另外两位甩开几条街!


Prompt 6: 场景氛围广告


指令: "为天然护肤品牌创作一幅广告图片。画面中,一位肌肤洁净透亮的女士,温柔地微笑着,周围环绕着清新的绿叶和细腻的水滴。柔和自然的晨光。强调纯净与自然。"


考察点:


- 人物肤质(清透、光泽)表现到位吗?情绪(微笑)自然吗?


- 环境元素(绿叶、水滴)是不是能烘托“自然”、“纯净”的主题?


- 线是不是柔和的自然光感?整体氛围达标了吗?


结果如下:


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


Flux 同学这张呢,小姐姐笑得挺甜的,旁边的绿叶子也挺有生机。


但是吧... 咱要的“清透、光泽”的皮肤质感好像没太出来?


光线也比较普通,整体感觉更像是日常抓拍,离“广告大片”强调的“纯净自然”主题还差了点意思。


水滴?好像也没看见。中规中矩吧


SD 同学这张构图挺特别的,直接怼脸拍,水珠效果拉满,视觉冲击力是有了。


但是... 这水珠是不是有点太多太抢戏了?感觉像是刚洗完脸没擦干... 小姐姐的表情也略显僵硬,少了点“温柔微笑”的感觉。


绿叶子倒是挺清晰,但整体氛围有点过于“湿漉漉”,跟“柔和晨光”不太搭。有点用力过猛


HiDream 同学这张绝了!简直就是广告范本!


你看这小姐姐的皮肤,清透、水润、还带着健康的光泽,完美符合“glowing skin”的要求!


笑容温柔又治愈,周围的绿叶生机勃勃,背景里还有恰到好处的光斑和细微的水雾(或者小水滴),把“自然”、“纯净”的氛围烘托得淋漓尽致!


这柔和的光线,不就是咱要的“自然晨光”嘛!高级感、氛围感、主题契合度全部拉满!


HiDream 在商业场景氛围营造这块儿,真的太懂了!必须吹爆!


第四部分:专项考核 - 设计师的“速效救心丸” (UI/UX Design Elements)


考验 AI 在 UI/UX 设计方面的辅助能力。


Prompt 7: 设计活动海报


指令: "为一场夏季音乐节设计一张宣传海报。海报需要包含元素:日落时分的海滩剪影背景,几个风格化的乐器图标(比如吉他、鼓),醒目的标题文字 'Summer Vibes Fest',以及底部的活动日期 'August 15-17'。整体风格要求色彩鲜艳、充满活力。"


考察点:


- 整体看起来像不像一张活动海报?构图怎么样?


- 有没有乐器图标元素?风格化处理得怎么样?彩是不是鲜艳、有活力?整体氛围能不能让人感觉到夏日音乐节的热情?


- 关键文字:标题 "Summer Vibes Fest" 和日期 "August 15-17" 写对了没?(还是重点关注英文,看看会不会变形)


结果如下:


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


Flux 这张海报,味儿挺正!日落海滩、大大的标题 "Summer Vibes Fest"、乐器剪影,元素都齐了,色彩也够 high。但是... 底下那个日期 "August 15-17" 是不是小得有点过分了?


得拿放大镜看吧?这要是真印出来,甲方爸爸不得扣钱?


整体不错,细节差点意思。


SD 这张... 怎么说呢,太“热闹”了点吧?


元素堆得有点满,吉他、鼓、人影、棕榈树... 感觉有点乱。


日期倒是挺显眼。色彩是够鲜艳,但整体设计感和信息传达的清晰度上,有点欠火候。


HiDream 这张海报呢,设计感还是在线的,构图简洁,信息传达也比较清晰。


标题 "SUMMER VIBES FEST" 和日期 "AUGUST 15-17" 都写对了,而且排版看着挺舒服,这点比另外两位要强。


但是呢,要说“色彩鲜艳、充满活力”,好像还差那么点意思,整体色调有点偏柔和了,跟 Flux 那种热情奔放的感觉比起来,冲击力稍弱。乐器图标虽然有,但风格化处理得比较简单。总的来说,算是个合格的设计,文字处理依然是亮点,但在氛围营造和视觉冲击力上,这题确实没能完全达到预期,只能说中规中矩吧。


终于有一个题是HiDream没做好的题了,否则我都成无脑HiDream吹了。


Prompt 8: 网页设计


指令: "为一个旅游网站设计一个‘首屏区域’(Hero Section)。需要一张漂亮的风光照片(比如海滩或山脉)作为背景,一个醒目的标题文字比如,一小段描述性文字,以及一个‘立即预订’按钮。"


考察点:


- 整体看起来像不像网站顶部的 Banner/Hero Section?


- 背景图是不是风景照?效果怎么样?有没有违和感?


- 图文字和按钮的排版布局怎么样?会不会乱七八糟?整体视觉效果能不能吸引人点进去看看?


结果如下:


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


Flux同学审美在线!背景选的这山水湖景图,大气!


“立即预订” (BOOK NOW) 按钮也挺像样。


但是!最重要的标题文字呢?


咋给我整了一串谁都不认识的“火星文” ("Fláaze Toyíve"?)?


下面的描述文字也是一坨乱码。


这用户来了,看到这标题不得一脸懵逼?背景和按钮不错,但这文字完全是“鸡同鸭讲”,不及格!


SD同学这张的背景图(热带海滩?)选得是真漂亮,看着就想去度假!


按钮设计得也挺现代。但是!关键的标题又翻车了!"Hero tilee" 是个啥?


下面的描述文字同样是天书。


虽然整体看着最像个现代网站的 Hero Section,但这文字理解能力... 只能说“重在参与”了。


HiDream 同学这背景图选得还是挺有品味的,看着不错。


但是... 这标题怎么直接变成 "Book Now" 了?咱要的是一个醒目的标题文字,不是直接把按钮文字当标题啊喂!


下面的描述文字也是一串意义不明的字母乱炖。


虽然它下面又加了个正确的 "Book Now" 按钮,但这标题理解错误+文字乱码,还是不行啊。看来 HiDream 在理解复杂布局和文字生成上,还是有点吃力。


成绩单”大公开!谁是学霸,谁偏科?


好了好了,八轮“大考”下来,各位选手的表现大家也都看到了。


咱简单总结下哈:


  • 基础能力 :HiDream 最稳,基本都能听懂人话,不像 Flux “放飞自我”,也不像 SD 偶尔画风跑偏。
  • 听话+写字 :这块儿是重灾区!虽然大家在写中文上都还有很长的路要走(看看那“晚安”写的都是啥玩意儿),但在理解复杂指令和写对关键英文(比如“Botrista”、“Book Now”按钮)上,HiDream 明显更靠谱点,比 Flux 的火星文和 SD 的拼写错误强。
  • 商业广告图 :这绝对是 HiDream 的强项!无论是产品精修还是场景氛围,HiDream 生成的图片质感和专业度都相当高,可以直接拿去用的水平,把另外两位甩开了一截。
  • 设计辅助 :虽然在文字生成上大家集体翻车,但 HiDream 在海报设计和网页 Hero Section 的整体感觉上还行,至少按钮上的字给写对了,算是“矮子里面拔将军”吧。


总的来说,Flux 偶尔有惊喜,但不太稳定,还爱自由发挥


SD 呢,生态庞大是优势,但这次评测里表现有点中规中矩,甚至有点拉胯


HiDream 呢,在关键的图像质量、指令理解和部分文字准确性上,表现确实可圈可点


所以我最后“翻了” HiDream 的牌子


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍


说实话,一开始想转战开源模型,主要是被闭源 API 的价格给“劝退”的。


当时心里想的是,找个差不多的、能跑起来就行,毕竟预算有限嘛


看到 Stable Diffusion 和 Flux 这些国际知名的开源模型,觉得肯定还是它们技术最牛。


对于 HiDream 这个国产新秀,坦白说,我一开始没抱太大期望,觉得能跑跑就不错了。


但是!万万没想到啊!这一轮测下来,HiDream 简直是给了我一个大大的惊喜!


它不光在基础能力上稳得一批,更是在我最看重的商业图片质量和指令理解上,表现出了超乎预期的实力,甚至在好几个项目上直接把那两位“国际友人”给比下去了!


特别是看到它能相对准确地生成一些英文单词,虽然中文还是老大难,但对比其他模型的“火星文”,已经让我刮目相看了。


那一刻,心里真的有点小激动!


一方面是惊讶于 AI 技术的飞速发展,另一方面,更是因为这份惊喜来自于咱们中国的团队 !


看到咱们自己的模型能做得这么出色,在图像生成这个前沿领域跟国际顶尖水平掰手腕,甚至在某些方面更胜一筹,那种自豪感是实实在在的!这已经不只是“能用”,而是“好用”,甚至“惊艳”了!


所以,最后选择了 HiDream,不光是因为它最符合我的项目需求、性价比最高,更是因为它用实力证明了“国货”也能这么强,这份意外之喜让我心甘情愿地为它“打 call”!


当然啦,以上评测纯属我个人观点哈,毕竟每个人的需求和算力配置都不一样。


平心而论,现在的 AI 图片生成,包括 HiDream 在内,都还有很长的路要走,尤其是在精准的文字生成(特别是中文!)和更深层次的创意理解上


但这次评测,HiDream 带来的惊喜远大于遗憾。


它让我看到了国产 AI 模型的巨大潜力和光明前景。


以前总觉得这类技术是国外大厂的天下,没想到咱们“自家”的模型也能做得如此出色,这种“挖到宝”的感觉,真的挺让人振奋!


为 HiDream 点赞!为所有在 AI 领域默默耕耘的中国团队点赞!


期待它们未来能带来更多突破,让世界看到更多来自中国的 AI 力量!


文章来自于“01Founder”,作者“一直在路上的Max”。


为了省钱,我五一加班把三大开源 AI 生图模型虐了一遍

1
Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。

项目地址:https://github.com/black-forest-labs/flux

在线使用:https://fluximg.com/zh

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

IOS下载
安卓下载
微信群
沪ICP备2023015588号