终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

搜索
AI-TNT
正文
资源拓展
终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道
2025-04-28 16:40

最近在看 Agent 方向的论文和产品,已经被各种进展看花了眼。但我发现,真正能超越 demo,能在 B 端场景扎实落地的却寥寥无几。


前两天跟阶跃的朋友聊起来,朋友说阶跃的多模态模型,已经在诸多智能终端 Agent 上落地了,涵盖了车端、手机端、具身智能和 IoT 四大场景。


这个后面再讲,因为,我发现光阶跃近期悄悄发布的 3 款多模态模型,就够写一篇文章的了。


而这 3 个模型,也是促进多模态 Agent 应用落地的重要模型。


这 3 个模型涵盖了三个方向:


1.图像编辑模型 Step1X-Edit(开源)


2.多模态推理模型 Step-R1-V-Mini


3.图生视频模型 Step-Video-TI2V(开源)


先来重点讲下昨天阶跃刚刚开源的改图模型——


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


真正开发上线过图像类应用的小伙伴都知道,在图像的应用落地方面,比起从头开始“文生图”,大众对手里现有的图片/照片的编辑需求其实更为广泛。


但,开源好用的图像编辑模型实在太少了。


可能阶跃也洞察到了这个需求,索性昨天发布了 Step1X-Edit 这个图像编辑模型,而且——


发布即开源,开源即 SOTA。


Step1X-Edit:图像编辑领域的开源 SOTA


图像编辑,听起来好像比文生图更简单。但实际上,如果让 AI 来做,特别是通过自然语言指令来编辑,会变得很难。


大模型不仅要精准理解用户上传图像的语义与细节,还要保证图像中人物、物体、背景的高度一致性,


还要充分遵循自然语言指令,在保证改图真实感的同时实现可控生成,以及文本-图像模态的深度融合,缺一不可。


阶跃这次的 Step1X-Edit,官方总结了三个关键能力,恰好就对应了上面说的三个方面。


  • 语义精准解析:能理解比较复杂的、组合式的自然语言指令,能够灵活应对多轮、多任务编辑需求。


  • 身份一致性保持:编辑后能稳定保留人脸、姿态与身份特征,在虚拟人、电商模特,这些高一致性场景里特别重要。


  • 高精度区域级控制:支持对图片里的特定区域进行定向编辑,比如换材质(把木桌子换成大理石)、改颜色、调整光照等,同时保持整体风格统一。


用一句话总结就是:


Step1X-Edit,不只能“改图”,更能“听得懂、改得准、保得住”。


先贴一下传送门,感兴趣的小伙伴可以一起测试:


阶跃 AI网页端:


stepfun.com


APP 端:


直接搜索「阶跃 AI」APP 即可。


比如,我们尝试把夕小瑶全身照换成像素风格。


提示词:换成像素风格


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


突然有一种想把像素风版夕小瑶做成小霸王游戏的冲动...


再来一个复杂换背景色的中文指令——


创建一张色彩鲜艳的手工簇绒地毯图片,放置在简单的地板背景上。地毯设计大胆、有趣,具有柔软蓬松的质地和粗纱线细节。


从上方拍摄,在自然日光下,带有略微古怪的 DIY 美学风格。色彩鲜艳、卡通轮廓、触感舒适的材料——类似于手工簇绒艺术地毯。


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


材质、颜色、风格都遵循地挺到位的。这个模型尤其擅长中文,用中文指令调整图片元素,可能会更顺手。


我进一步研究了下,发现这个模型支持 11 个高频的图像编辑任务类型——


包括但不限于文字替换、风格迁移、材质变换、人物修图等。


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

阶跃也放出了这个模型的技术报告:


https://arxiv.org/pdf/2504.17761


我觉得有几个点值得关注——


技术实现上,Step1X-Edit 用了 MLLM(多模态大语言模型)+ Diffusion 的架构。


MLLM 负责理解你的指令和图像内容(相当于大脑),Diffusion 模型则完成图像的修改和生成(相当于画手)。


这种分工让模型在理解复杂指令和控制生成细节上更有优势。


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

官方还特别构建了一个规模超大的图像编辑训练数据集(筛选后百万量级),包含 11 类常见编辑任务,比如文字替换、风格迁移、背景调整等。


模型总参数量只有 19B (7B MLLM + 12B DiT),但在性能上,拿到了开源 SOTA,表现很接近 GPT-4o 和 Gemini 2.0 Flash。


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


个人觉得,Step1X-Edit 的开源,对于整个 AI 图像编辑领域是个不错的贡献。不仅提供了技术上的思考(比如那个解耦架构),也真实地解决用户痛点。


贴下开源传动门:


Github:


https://github.com/stepfun-ai/Step1X-Edit


HuggingFace:


https://huggingface.co/stepfun-ai/Step1X-Edit


ModelScope:


https://www.modelscope.cn/models/stepfun-ai/Step1X-Edit/summary


再来讲下多模态推理模型Step-R1-V-Mini。


Step-R1-V-Mini:让 AI 不止“看图说话”,还能“看图思考”


看懂图片是多模态模型的“视力”,对图片进行思考和推理,则是多模态模型的“智力”。


4 月初,阶跃新出的 Step-R1-V-Mini,就是专门冲着这个“多模态推理”来的,集成了多模态理解 + 深度推理两种能力。


我们前些阵子的文章提过,o3 和 o4-mini,凭借“福尔摩斯”般的图片推理能力,可以快速定位图片里的地点。


我们用类似的题目,测一下 Step-R1-V-Mini是否具备类似的能力。


这是网友温布利球场的实拍图片,看它能不能猜对这是哪儿——


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


推理正确!


再比如,根据照片推理宇航员离地高度——


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


地球占据视野约一半,有明显地球曲率,符合低地球轨道特征,估算合理。


这个模型也已经可以在阶跃的官网和开放平台上体验了,感兴趣的小伙伴可以去测测。


阶跃 AI 网页端:


https://yuewen.cn/chats/new


阶跃星辰开放平台:


https://platform.stepfun.com/docs/llm/reasoning


今年 2 月份的时候,我们曾报道过,阶跃同时开源了两个模型,一个是文生视频模型 Step-Video-T2V,一个是支持实时语音对话的语音模型Step-Audio。


没想到这么快的速度,又开源了图生视频模型Step-Video-TI2V。


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


这次主打“运动幅度可控”和“镜头运动可控”两大特点。


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


生成的视频分辨率是 540P,时长大约 5 秒(102 帧)。不算特别高清和长,胜在开源和可控性。


对于快速制作一些动态效果、社交媒体素材或者创意原型来说,够用了。


附开源传送门:


https://github.com/stepfun-ai/Step-Video-TI2V


真·多模态卷王


阶跃这次密集“上新”,其实并不让我意外。


回顾他们过去一年的动作,你会发现这完全符合他们一贯的打法——在多模态领域持续深耕、快速迭代。


“多模态卷王”,这个称号某种程度上是他们自己“卷”出来的。我列了一个表:


粗略算了下,公司成立 2 年,截至目前一共发布了 21个模型,15个是多模态模型,比例超过七成!


这投入程度,说他们是“多模态卷王”都不过分。而且在多模态的各个主要技术方向上,阶跃基本都有布局。


我查了下,Step-1V、Step-1o Vision 等模型,之前在国内外知名的多模态评测榜单


(比如 OpenCompass、LMSYS Chatbot Arena 视觉榜)上拿到过比较靠前的位置,甚至是中国大模型里的第一名。


更有说服力的是,是来自商业客户的反馈。


比如茶百道门店已经用上了他们的 Step-1V 模型做智能巡检。


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


网红 AI 应用“胃之书”的开发者公开表示,"测试了一圈国内模型,发现阶跃的付费率最高。"


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


所以,阶跃在多模态领域的“卷”,是建立在全面布局、快速迭代、性能实力和商业落地上的。


不止于模型:阶跃的 Agent“触手”伸得有多快?


当然,模型本身只是“弹药”,最终还是要看打向哪个“战场”。阶跃的多模态能力,显然不仅仅是论文或榜单。


今年 2 月,阶跃明确提出了要发力智能终端 Agent,瞄准了车、手机、具身智能、IoT 这四大关键场景。


这个战略,就是要把强大的多模态理解、推理和生成能力,赋能到我们日常接触的各种智能设备上,让它们变得更“聪明”、更“有用”。


更值得注意的是他们的落地速度。

官宣战略才几个月,就已经看到了一系列实实在在的进展:


  • 智能汽车: 和吉利汽车集团、以及千里科技深化技术合作。


在 4 月的上海车展上,吉利展示了一颗充满科技感的蛋形智能座舱,由阶跃星辰多模态大模型提供底座技术支持。


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道


  • 手机终端: 和 OPPO 合作,多模态模型已经落地到了 OPPO 的多款旗舰机型上,


实现了像“一键问屏”(拍照或截屏提问)、“一键全能搜”(语音指令跨 App 操作)这样的创新功能。


  • 具身智能: 这个领域现在非常热。阶跃动作也很快,先后和机器人领域的“当红炸子鸡”智元机器人、以及专注于物理世界推理的原力灵机签署了战略合作。


目标很明确,就是要探索“大模型 + 机器人”的融合,打造能在物理世界理解和行动的 RoboAgent。


  • IoT 终端: 和 TCL 这样的家电和 IoT 平台大厂合作,推动设备智能化和互联互通体验升级。


大家可以留意一下这些合作伙伴,都是各自行业里的重量级玩家或领先者。这就说明了阶跃的技术实力和商业拓展能力得到了市场的认可。


写在最后


说实话,作为天天泡在这个圈子里的人,看到这种“爆肝”式的迭代速度,既觉得兴奋,又有点‘卷不动’的感觉。


兴奋的是,技术边界又被往前推了一大步,我们能玩的东西更多了;“卷不动”是感叹这进步速度,真是稍不留神就可能被拉下。


扒完阶跃这波密集的上新,感觉非常地过瘾。从图像编辑、多模态推理,图生视频,到智能终端 Agent 的初见成效,真的是火力全开。


多模态这块,他们一直在稳定输出,没掉过链子,而且路径清晰且有竞争力。


继续期待蹲下一个惊喜吧。


文章来自于微信公众号 “夕小瑶科技说”,作者 :夕小瑶编辑部


终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号