一觉醒来,听说海外又爆了一个 Agent 产品 ——「Lovart」。
这是什么?
按照官方的介绍,Lovart 是全球首个设计 Agent,可以让人类和 AI 在同一张画布上写作,迅速将提示词转化为令人惊叹的视觉效果。
看到这里,我们马上就想打开官网上手一试,验证一下是不是真的如此神奇。
官方网站:https://www.lovart.ai/
笑死,无法立刻拿到内测码。
毕竟是「有限测试版访问」,Lovart 的规则是:关注账号并评论,前 500 名留言的读者优先获得内测资格。
搞得像抽奖一样,这种一号难求的「盛况」是不是很熟悉?
回想起上次到处求邀请码,还是上次。对,就是 Manus 那次。
当时离谱到什么程度呢?据说一个 Manus 账号价格曾炒到 10 万块人民币。
但说实话,一夜之间红遍大江南北的 Manus,后续肯定算高开低走了。至少它还没有成为我的日常生产力工具(没有说它未来不能成为的意思,也没有说它不是别人日常生产力工具的意思)。
就在 Lovart 发布的同时,Manus 今天凌晨宣布开放注册,所有人都可以马上注册,不需要排队,且每人每天可免费执行一项任务。
同样的「一觉醒来」,同样的「海外爆火」,同样的「全球首个」,同样的「中国创业团队」,不知道 Lovart 会不会重复一遍类似的剧情。
写到这里,我们确实有必要深挖一下 Lovart 背后的团队。
首席研究员是王浩帆。说起来,Lovart 都不算是他人生中的第一个爆款 AI 产品。在小红书工作的时候,他是大名鼎鼎的 InstantX 团队成员。这个团队由一批神秘的 95 后组成,先后发布了 InstantID 和 InstantStyle 两个项目。
记忆力好的读者可能马上就想起来了,是那个超级火的「AI 写真」项目。火爆到什么程度呢?连 Yann LeCun 都在转发自己的钢铁侠写真:
机器之心的相关报道,请回顾:
这种「爆款体质」的团队背景,也让 Lovart 自带神秘光环。
突然之间,众多用户涌入、排队、求内测,应该也超过了团队的承受能力。
在虔诚期待内测码的「降临」的时候,我们只能先鉴赏一遍官方 Demo,研究下 Lovart 大概怎么用、怎么玩。
Lovart 集合了各种 AI 和非 AI 的设计工具,比如 GPT-4o、Stable Diffusion、Flux、Triple、PS、Figma。
就是说,它能兼容任何设计格式文件的导入和导出。
将官方和各路博主的设计作品鉴赏完一遍之后,我们的内测码也到手了。
Lovart 的首页感觉很像大多数对话类应用,事实上,它的使用方式也差不多:说出你的需求,让 AI 去办。
不同的是,Lovart 是有些专业设计人的「功夫」在身上的。
所以你跟它对话,它秒懂你需求并且马上执行的那种体验,是 ChatGPT 们给不了的。
这里我们先输入一段:
我需要一组「未来都市・赛博幻夜」主题的插画,共 4 张,这四张图像要体现在东京、纽约、重庆、上海四个城市的不同风格。主体视觉是一个戴着发光护目镜的机械少女侧脸,面部有电路板纹理,背景是密集的立体城市与飞行汽车;色调以紫红 / 荧光蓝 / 电子橙为主,搭配黑色剪影与高光点缀;主标题是「NEON DREAM」,采用尖锐的几何字体,边缘有像素化碎裂效果;副标题「2089 虚拟重生计划」以小号字体悬浮于主标题下方,带全息投影质感。
Lovart 首先是尝试思考、理解需求,很快就进入下一阶段:制定规划。
自己制定设计规划,自己完成:
其实你能一眼看出,这四个生成结果都有瑕疵,最明显的:后面三张都没有遵循和副标题有关的规定。
但是问题不大,生成的文件是分层的,完全可以后期编辑调整。
系统提供了点击式操作界面,声称能够预测用户的下一步需求。设计完成后,用户可以对细节进行微调。
目前我们能看到的功能有:放大、外绘、移除背景、移除对象、修复、涂抹。总体来说,这个界面给我们一种美图秀秀的感觉……
但每款产品肯定是有不同的。从我们之前的测评体验来说,要想让 AI 输出的风格恰好如你心中所想,必须在沟通和修改上多一点耐心。
注意,Lovart 这里给到了一个「Edit」选项,可以继续通过 Prompt 修改。我们试用时的指令很简单:加一条项链。
发挥空间是很广阔的,一千位用户手里能画出一千种哈姆雷特,大家自己发挥即可。
导出的话是有三种格式,画面尺寸在这里还有修改的余地:
在官网上,我们还能看到一些完整的对话过程,比如下面这个设计皮包的对话。在对话中,设计师不仅要求 Lovart 设计出皮包,还要生成时尚杂志封面,而且指定场景是户外场景。
如此复杂的需求,Lovart 一一满足:
在 3D 生成方面,Lovart 官方也展示了一些模型功能,比如创建不同角度的角色视图。
用户是可以使用骨架和关键点工具调整人物身体姿势的:
至于技术如何领先,官方信息暂时只提到了一句「MCoT」,除此之外没有太多披露:
最后,我们必须承认,作为媒体从业者,我们暂时没能与 Lovart 合作出可以媲美官方 demo 艺术水准的作品。
这或许说明,提示词工程仍然是一项核心竞争力。而且,这次的 Agent 产品又是面向设计领域,用户需要自带一点「艺术细胞」才好。
以下是从官方写的 Prompt 摘出来的:「在超现实的手工剪裁拼贴画风格中,一尊古希腊雕像在层层撕裂的纸张和纹理清晰的杂志剪报中显得支离破碎。雕像眼睛上的发光条纹依然是醒目的金色和红色,在黑白半色调和色块背景中显得格外醒目。字体设计大致对齐,使用粗体复古衬线字体,模仿报纸标题,字母重叠,基线不一致。」
「整个场景既平面又有质感,既混乱又平衡,让人联想到复古现代的超现实主义。」谁懂这句的含金量?
所以,AI 取代不了设计师,但今天的设计师完全可以利用 AI 来赚钱。熟练的重复性劳动不是赚钱的核心能力,但「创造力」和「审美」可能会是。
文章来自于“AI好好用”,作者“蛋酱”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。
项目地址:https://github.com/black-forest-labs/flux
在线使用:https://fluximg.com/zh
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0