字节推出最新偷懒大法,AI绘画连prompt都不用学了

搜索
AI-TNT
正文
资源拓展
字节推出最新偷懒大法,AI绘画连prompt都不用学了
2024-01-24 11:12

门槛被彻底踏平


我们都知道,哈利波特对着伏地魔挥舞魔杖的时候,嘴里念“阿瓦达啃大瓜”和“Lumos”显然会是两个完全不同的结果。


霍格沃兹的第一课,显然是教大家怎么念咒语。


如今咱们也有咒语,比如“中国风”“双马尾”“赛博朋克”“蓝发”“碧瞳”“海边”“坐姿”“年会”“职场”.......


指挥Chatgpt等等一切大模型帮你干活的关键,就是这些被称作提示词(prompt)的咒语。


然而这些咒语对于我们麻瓜来说还是太难了,尤其在用AI绘画的过程中。


绝大多数AI生图模型在训练的时候侧重的是文本和图形之间的关联,并不擅长语义分析和复杂元素处理。


所以有时候会出现一些它觉得合情合理,我们看起来十分离谱的场景。


比如之前热议的AI美少女无法用正确姿势吃面事件。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


来源:网络


这一是因为模型不知道吃拉面要用筷子这个常识,二是因为模型里没有足够的“手拿筷子吃拉面”样本图可以参考。

最关键的则是,咱们在要求模型生图的时候,没有详细描述“美少女用哪只手的哪几个手指怎么拿着筷子吃拉面”的场景。


01


为了实现完美生图,饱含智慧的前辈们总结出了一系列念咒大法,包括但不限于——


提示词分类(分别描述人物、服饰、场景等元素)、使用负面提示词(描述不希望图片中出现的内容)、垫图(给模型提供参考图链接)、加参数(规定生成图片的比例、随机种子、迭代次数…)等等。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


来源:眈眈探求


所以现在画张图,从原来的动手,变成了和大模型勾心斗角。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


来源:优设网


想要要把心中的二次元老婆变成电脑屏幕上的像素点,念给模型的咒语里要有她的:参考图、容貌描述、衣着描述、肢体动作、场景描述、艺术风格、镜头参数…


单是这几个类别的prompt叠加就能衍生出无限可能。


更别说生图模型一般一次不会只出一张图,而是会给出4-6张图片让你选。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


来源:眈眈探求


近乎无限的prompt组合尝试,加上乱花渐欲迷人眼的选图,很容易让人不小心拿出抽卡的劲头跟模型死磕到天明。


这种接近穷举法的方式搞创作也不是不行,但问题就是这不光浪费时间,甚至还浪费钱。


AI绘图届的天花板Midjourney采用订阅制付费,最便宜的10美元计划可用3.3小时快速生成时间,大约能生成200张图。


200张图不够用怎么办?接下来再用就是每小时4美元。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


Stable Diffusion(SD)则是可以在本地运行的AI绘图模型,投入只需要一张显卡,国外网友测试了各类显卡的生图效率。


可以看到官方定价1600美元的英伟达RTX 4090,在512分辨率下生图效率可达75张/分钟,虽然快但是贵且买不到。


价格亲民些的显卡平均生图大概在20张/分钟左右。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


假设抽卡生图200张,要么交10美元给Midjourney,要么先花2000多人民币买张显卡,然后再自己跟着网上的教程一步步部署SD,最后再花个10分钟去生图。


无论是付费订阅还是买显卡自己部署,想让沉没成本不沉没,咒语质量是关键。


咒语不到位不仅美少女会用手直接抓起滚烫的拉面往嘴里塞,还会出现这些人类驯服AI失败的名场面。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


来源:网络


所以念咒教育产业应运而生,谁能念出高质量的咒语,就能驯服AI为自己所用。


用爱发电的教程就不说了,网上一搜一大把。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


来源:B站


字节推出最新偷懒大法,AI绘画连prompt都不用学了


直接上来卖prompt和收费开课的更是层出不穷。


来源:淘宝


字节推出最新偷懒大法,AI绘画连prompt都不用学了


来源:微博


AI绘图把传统画师的饭碗端起来送到了魔法师手里,然而这个饭碗在魔法师手里还没捂热,现在又有人要把它收走了。


字节跳动近期联合中山大学,推出了一个专门帮你写咒语和选绘画模型的AI绘图框架:DiffusionGPT。


02


简单来说,它就是想让一个不会念咒的人,随便说两个字就能得到最满意的结果。


有了这一框架,哈利波特对着伏地魔高喊一声“去死吧!”随即索命咒钻心咒夺魂咒就开始自动轮番伺候,不死不休。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


言归正传,先看看实际效果图,下面四宫格生图都使用了同一个prompt,上面两张是SD直接画的,下面两张是用DiffusionGPT生成的。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


prompt:创作一幅插画,描绘一对浪漫的情侣在星空下分享温柔时刻的场景


字节推出最新偷懒大法,AI绘画连prompt都不用学了


prompt:如果我能跟动物交流,我会站在楼顶和鹰说说话


字节推出最新偷懒大法,AI绘画连prompt都不用学了


prompt:来,让我们一起去一个白雪皑皑的童话世界,那里有孩子们堆雪人和打雪仗


SD还是颇有人工智障余风,只抓住了局部关键词,而DiffusionGPT无论是从立意、构图、风格选择上来说都完胜。


DiffusionGPT不依赖高质量咒语就能生出高质量图是怎么实现的?主要靠以下两点:


1. 用ChatGPT作为认知引擎,弥补了绘画模型没有脑子的短板,可以分析原始prompt并进行优化;


2. 连接各开源社区的绘画模型,自动根据prompt内容匹配符合其主题和风格的最佳模型。


再说直白点,它会根据你提供的提示词,自动脑补出咒语大师们会怎么写出更清晰的提示词。


接下来详细看看它是怎么用4步做到的。


03


字节推出最新偷懒大法,AI绘画连prompt都不用学了


第一步,还是从用户给的prompt入手。


比如输入的prompt是:“生成一张正在笑的女人的照片,时尚杂志封面”。


DiffusionGPT会把这个prompt分到“指示”类别,然后提取出“带笑容的女人照片,杂志封面”几个关键短语。


接下来关键词会进入DiffusionGPT的模型思维树(Tree-of-thought of Models)中。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


模型思维树收录了开源社区(如:Hugging Face、Civi- tai)中大家贡献的定制化绘图模型,而且这个名录还可以根据社区新上架的模型自动更新。


虽然用风格关键词一定程度上也能控制生图的风格,但是如果模型训练时就没有相关的样本图,它也没办法无中生有。


开源社区中的定制化模型往往从样本图入手,针对某种画风、场景进行了特别的优化。


有网友用同一个描述艾莎女王的prompt在不同的模型上进行测试,发现这个画风差距还蛮大的,而差异就源自不同模型用了不同的样本图。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


来源:reddit


根据第一步得到的关键词“带笑容的女人照片,杂志封面”,DiffusionGPT的模型思维树会匹配到真实照片、电影级别大片这类模型标签,然后标签下搜索相关的模型。


然后找到像FilmVelvia2(用于生成胶片风格AI写真照片)、CineStyle5(用于生成带有故事性的电影图片)这类擅长真人写实风格的模型。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


字节推出最新偷懒大法,AI绘画连prompt都不用学了


那事到如今到底选择哪个模型来生图呢?团队在这里引进了人类反馈机制。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


他们有一个记录了人类评分的prompt数据库,里面包含了10000条prompt、它们对应的生成图片以及人类对生成结果的打分。


当DiffusionGPT的模型思维树需要在搜索出来的相关模型中做出最后选择时,会把当前的关键词“带笑容的女人照片,杂志封面”跟数据中的prompt进行匹配。


把匹配到的几个高分图的模型名称找出来,然后根据这个列表选择最终这次生图要用的模型。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


模型选好了,但是还没结束,最后一步还有个prompt优化。


DiffusionGPT会结合关键词的上下文以及prompt示例,生成一个带有画面细节描述和提质专用词汇的新prompt。


于是关键词“带笑容的女人照片,杂志封面”最后就变成了:


“杂志封面上的女人笑得非常开心,眼睛里充满了喜悦。她穿着时髦的服装,凸显了她的曲线,头发也梳得恰到好处,衬托出她的容貌。”


论文里还提供了两个prompt优化的例子,看得出来优化后的prompt生成图片的效果确实好了不止一点点。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


原prompt:一个没有车的十字路口


优化prompt:城市的十字路口诡异地安静,到处都看不到车辆。交通的缺失营造出一种超现实的氛围,路灯的照明投下长长的阴影,照亮了空荡荡的街道。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


原prompt:老人和船


优化prompt:一位老船夫正悠然地荡着小船,碧波如镜的湖面在他的周围静静铺展。他戴着一顶破旧的草帽,身上披着风吹日晒的旧夹克,双手随意地放在船桨上。夕阳西沉,天边泛起一片暖橙色的霞光。虽然小船历经风霜,早已斑驳陈旧,却依旧稳健地承载着老船夫。他神情恬静,一脸岁月静好的安详。


DiffusionGPT是个特别适合被GPT5纳入官方技能包的功能,不知道Sam会不会翻到字节这篇论文。


集成到官方难度不大,而且还能在生图领域分一杯羹。


毕竟它的解析、推理、决策、优化prompt能力都是ChatGPT给的,剩下的只有联网(去开源社区搜索模型)和人类反馈(生图喜好评分标准)。


等于是用大语言模型给开源生图模型做了个搜索引擎+prompt优化,把生图的流程串联起来,提供了傻瓜式一条龙服务。


接下来就看是字节先产品化,还是GPTs里先有李鬼,还是官方直接来收编了。


不过参照网友总结的这张AI绘图选择树,DiffusionGPT面向的人群应该还是想尝鲜和懒得折腾的技术小白。


主打把一个简单的点子变成一张看起来还不错的图,提供了0学习成本低技术门槛的高效AI生图用户体验。


字节推出最新偷懒大法,AI绘画连prompt都不用学了


来源:眈眈探求


然而对于吃美术、设计这碗饭的专业人士来说,这玩意生成的图只是所谓的人群审美“最大公约数”,并没有太多创意。


这就类似蜜雪冰城那个logo,人人都喜欢,可没几个甲方真敢用。


文章来自于微信公众号 “新硅NewsGeek”(ID:XinguiNewsgeek0,作者 “刘白”


字节推出最新偷懒大法,AI绘画连prompt都不用学了

1
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

IOS下载
安卓下载
微信群
沪ICP备2023015588号