HiDream：最强文生图开源模型，来自合肥

AI资讯 2025-04-16 10:10

+13116 阅读

刚出道的 HiDream-I1，拿下了 Hugging Face 趋势榜第二（图像榜第一），Artificial Analysis 文生图第二，排在Midjourney、Google Imagen、FLUX、SDXL 之前，仅次于 GPT-4o 。

老实讲，看多了龙争虎斗，本应对此免疫。

但被提醒道：这是个创业团队搞的，来自合肥

打了个猛子...牛逼牛逼，真尼玛牛逼

HiDream：最强文生图开源模型，来自合肥

Hugging Face 模型趋势榜

HiDream：最强文生图开源模型，来自合肥

Artificial Analysis 图像竞技场

不得不仔细看了几眼：

•它是MIT 协议，开源的可商用• 它是中国团队做的，也没拿自己和谁对标
它是可部署的，权重、脚本、demo、量化全部已放出• 这不是大厂项目，这不是！这不是！

真的，这东西，是我们“默认国内早就该有”，但直到现在才出来的东西。

甚是好奇，随即我联系上了背后团队，问了大量私货，有了这篇文章。

真实可用，不是PPT

HiDream-I1 分三个版本：Full / Dev / Fast，分别对应不同的推理场景。

这里有几个官方 Case，来自官方自己的报道

HiDream：最强文生图开源模型，来自合肥

画面细节

HiDream：最强文生图开源模型，来自合肥

色彩与光效

HiDream：最强文生图开源模型，来自合肥

崩坏控制

HiDream：最强文生图开源模型，来自合肥

物理法则

我去跑了几个任务：

HiDream：最强文生图开源模型，来自合肥

可爱的举重猫猫

HiDream：最强文生图开源模型，来自合肥

富有张力的镜头特写

HiDream：最强文生图开源模型，来自合肥

带上文字也可以

生成质量稳定，理解力准确，出图速度在 Full 版下约 30 秒/张，Dev 版下 10 秒/张，Fast 则为 5 秒/张，可以直接挂进内容生产链路中使用。

这些速度不是靠粗暴剪枝换来的：Dev 和 Fast 模型是在原版基础上，通过 GAN 辅助的扩散蒸馏方式做出的结构级压缩：保留了大模型的细节能力，同时显著降低了推理成本。Fast 版本则进一步压缩采样步数，有了更快的速度

直接能用

HiDream-I1 优化了整套部署支撑，所以无论是做项目原型，还是打包进服务，这套模型的部署链路都非常顺畅：

5GB 显存起步就能跑 Dev 版本，推理速度约 10 秒一张图• Hugging Face 上权重齐全，配套的推理脚本和配置文件全部开源
Diffusers 接口支持完整，可以一键加载到现有 pipeline 里使用• 可接入 ComfyUI / Gradio，可直接嵌入原本工作流
支持 4bit 量化与 LoRA 微调，适合本地部署和行业定制任务

HiDream：最强文生图开源模型，来自合肥

官方在 hf 上的介绍

可以在 Hugging Face 上先玩（也有对应的 Space）

https://huggingface.co/HiDream-ai/HiDream-I1-Full

他们也有更加产品化的网站（面向海外的）

https://vivago.ai/studio

HiDream：最强文生图开源模型，来自合肥

产品是面向海外的

一些数据

在几项主流评测里，会发现它的表现也都在第一梯队：

DPG-Bench：评估模型对复杂提示的理解与还原能力，得分 85.89，总分第一
GenEval：评估模型对提示中对象的理解与执行能力，得分 0.83，开源模型中最高
HPS v2.1：评估图像的主观美感和语义一致性，HiDream-I1 得分 33.82，高于 Midjourney V5、SDXL、DALL·E 3

HiDream：最强文生图开源模型，来自合肥

DPG-Bench：评估模型对复杂提示的理解与还原能力

HiDream：最强文生图开源模型，来自合肥

GenEval：评估模型对提示中对象的理解与执行能力

HiDream：最强文生图开源模型，来自合肥

HPS v2.1 ：评估图像的主观美感和语义一致性

这些 benchmark 来自公开信息，可以复现试试。

它们的结果，其实只说明一件事： HiDream-I1 在理解文本、还原细节、维持画面质量这三件事上，是稳的。

One More Thing

I1 之后，这几天他们还会开源 E1。

HiDream：最强文生图开源模型，来自合肥

https://github.com/HiDream-ai/HiDream-E1/

I for Image，E for Editor：从图像生成，到图像编辑

用对话的方式改图，像 GPT-4o 那种，敬请期待。

来自合肥，低调做事

第一次注意到 HiDream 这个团队，还是去年初雪；

再次看到，已是春暖花开。

HiDream：最强文生图开源模型，来自合肥

来自「赛博月刊：2024.12」

当时只道是寻常，没第一时间去深聊。

而在过去两周里，HiDream-I1 在开源生态中一路高歌猛进，排名跃升，着实令人咋舌：参数不大，速度稳定，出图质量靠得住，还能跑到顶级开源模型前列。这在如今的开源图像模型里，已经很罕见了。

好奇之下，我联系到他们，和团队聊了半个下午，拼出这个项目的全貌。

HiDream.ai 成立于 2023 年 3 月，在合肥。就是那个背靠中科大，孵化了京东方、科大讯发的合肥。

创始人梅涛，亦是中科大背景：在中科大读了本、硕、博，微软亚洲研究院做了 12 年研究员，后来在京东探索研究院任副院长，还是 IEEE Fellow、加拿大工程院外籍院士。

这个项目的天使轮，来自群友：一个叫“中喝大”的中科大校友群。在这里 15 位校友自发组了 LLP，投下“种子一号基金”。在之后，是上面提到的「敦鸿资本领投的 Pre-A 轮融资后，又获得数亿元 A 轮融资，两轮融资总共规模达到数亿元人民币」。在行业之内，融的不算多。

梅涛自己说，他创业不是为了跟谁竞争，也不是为了赶热点，而是想证明——中国的科研人才可以在工业级产品线中做出自己的东西。哪怕晚几年，但路径能跑通、结构能复制。

目前， HiDream.ai 团队也就 50 人上下，但拥有目前行业中最丰富的多模态版权语料库，并且把训练 ROI 做到了业内平均的 1/5。模型路线走的是自研架构、全流程闭环，也是在中国少数真正“从基础模型一路做到应用层闭环”的图像/视频方向创业公司之一。

HiDream：最强文生图开源模型，来自合肥

办公室实拍...没啥构图，主打真诚

在他们上周海外爆火了一波后，照理说你会看到铺天盖地的 PR 稿件，来讲什么“国产替代”或“国产超越”的故事。

但实际上，啥也没有。看到的就只是把权重挂上 Hugging Face，贴好推理脚本、样例代码、demo 页面，然后静静等社区试用。

我问他们，“为什么不讲点东西？”

团队的回答是：“说得响没用，能用才有价值。”

语气平实，节奏克制。

能看出，他们不是不准备，而是不着急。

这两天，他们还会正式开源 HiDream-E1，E for Editor。

HiDream：最强文生图开源模型，来自合肥

Git 上已经有了 Readme，开出来不远了

接下来，HiDream 还会陆续发布多模态 Agent 模型 HiDream-A1（A for Agent）、产品 vivaGO v2.0，面向专业创作者的终端 App，以及视频生成的相关东西（预估是5月）。

没喊口号，按计划在推进。不在造势，而在做事。

结尾

很有意思，AI 的大火从北京烧到上海，进而点亮了「杭州六小龙」，也让我们看到了 Manus 在武汉崛起。

现在，合肥也交出了自己的答卷：HiDream。

一个创业团队，从图像模型切入，在没人关注的节点，把一件“早就该有人做的事”做出来了。

春风拂面，桃花满枝。

我们越发看见、也越发确信：

中国的创业公司，不讲故事，也能把答案写在时代的卷首。

文章来自微信公众号 “ 赛博禅心 “，作者金色传说大聪明

HiDream：最强文生图开源模型，来自合肥

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址：GitHub：https://github.com/camel-ai/owl

OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务，包括网页浏览，文件操作，写代码等。OpenManus 使用了传统的 ReAct 的模式，这样的优势是基于当前的状态进行决策，上下文和记忆方便管理，无需单独处理。需要注意，Manus 有使用 Plan 进行规划。

项目地址：https://github.com/mannaandpoem/OpenManus

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。

在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner