就在刚刚,腾讯混元3D全新版本上线了。
距离我拿到内测资格已经过去了小一周,
这一周内我在混元3D、Tripo3D、Meshy这三家AI 3D里跑了上百次案例,
在文生3D、图生3D、纹理材质生成、3D工作流四个维度,让小白也能最大程度体验到AI 3D能做到什么,以及将如何影响AI生图、AI视频的工作流。
这可能是中文区第一篇系统性横向对比AI 3D的文章。很高兴能跟大家分享。
腾讯混元3D 🔗:https://3d.hunyuan.tencent.com/
混元3D这次的提升点,总的来说就是:价格低,门槛低,模型更精细,玩法更多样,而且上线即开源!
首先,我们来看看腾讯混元3D、Tripo3D、Meshy三家目前的功能对比。
腾讯混元3D 2.0 可以说是目前玩法最多的AI 3D工具了。
目前在主页上我们可以看到有:文生3D(无参数)、图生3D(单图)、low-poly生成、3D动画生成、草图生3D、3D纹理生成、3D人物生成、3D小游戏创作甚至还有节点工作流模版。
Tripo目前支持的功能非常简洁:文生3D(支持多参数调节)、图生3D(包括单图和多图)、以及3D人物动画生成。
Meshy目前支持的功能有:文生3D(无参数)、图生3D(单图)、AI生成材质、文本生成体素、以及3D人物动画生成。
整体上看,三个工具中,文生3D和图生3D是最基础也是最重要的功能。在此基础上,每家都有自己独特的功能点,其中腾讯混元3D目前的玩法最多样,Tripo的文生3D的参数调节对模型的控制性会更强,多图生3D对模型的把控会更全面,Meshy则是更偏向于基础功能的展现。
看到这,我其实很想说,驱动我进行那么大规模的横评还有一个重要原因:
就是这短短的二十几秒,Krea内置了Tripo3D后,就封装出了一套新的AI实时生图的工作流。能自由切换图片元素的任意角度,夸张点说以后不会有废片了。
而这次腾讯这次把混元3D 2.0开源了,再加上那么多内置的功能,我一点都不怀疑它后续能影响AI图片、甚至是AI视频的生成效率。
话不多说,Case一个一个给大家看。
上面介绍了三家工具虽然各自都有自己独特的功能,但最基础的文生3D效果,一定是我们测评的首要方面。
话不多说,先来看第一个案例。
提示语1:“一只可爱的小火龙,全身覆盖着细腻的橙红色鳞片,带有淡淡的火焰纹理。小火龙的眼睛大而明亮,闪烁着好奇和灵动的光芒,尾巴细长且带有尖锐的小刺。”
可以看到,混元整体的效果最平衡,不管是小火龙的形态还是尾巴上的尖刺,还有身上的鳞片贴图展现的都很好。
Tripo不知道为啥把翅膀长在龙头上,还没有给身体上好色;Meshy的贴图有些问题,长了三只眼睛(我感觉龙手那里也像两只眼睛……)
我没有想到腾讯混元3D上来就这么厉害,一把生成效果就这么好,而且生成速度非常快,一分钟左右就可以完成,同样的,tripo需要三分钟左右,而Meshy则是要分开两步去生成(先生成4个白模,选择其中一个上色)。
那我们再来看看生成人物的效果怎么样。
提示语2: “一个中世纪风格年轻的骑士。他身材健壮,穿着简单的铁甲上面有轻微的划痕,头盔是圆顶设计,面罩微微抬起,露出坚毅的脸庞和短发,佩戴一把古老的长剑。”
对比起来,可以看到混元3D和Tripo都选择了比较偏向写实的风格,但Meshy选择了偏向Q版动画画风的人物。模型的整体质量都还不错,Tripo的贴图纹理质感和打光处理的最好,混元3D对于提示语中“铁甲上面有轻微划痕”展现的最好。
目前三家模型都会出现人物脸部贴图有点模糊的现象,Meshy的卡通风格还会稍好一点,这一点还需要再加强。
接下来我们最后看看对于物品的展现。
提示语3: “一个中世纪风格古老的铜制油灯。灯体呈圆柱形,表面有简单的几何图案雕刻,带有一股复古的气息。灯罩是半透明的玻璃材质,微微泛黄,透过灯光显得温暖而柔和。灯的提手是弯曲的铜条,方便携带。”
该说不说这三盏油灯画的都很好,Tripo像富贵人家用的,混元像中世纪探险用的,Meshy那个看起来是真真的铜制的感觉。
那,如果我换个复杂一点的物体呢,来看看这个。
提示语4:“一件华丽的中世纪风格珠宝项链,项链主体由精致的黄金链条构成,镶嵌着多颗璀璨的宝石,包括红宝石、蓝宝石和祖母绿。项链的扣环部分设计成复杂的花纹,带有复古的雕花细节,整体风格奢华而神秘。”
没想道这么复杂的物体,表现还不错,但也存在一些小问题。Tripo把宝石和项链融成一坨了,该有的宝石的光泽感没有体现出来,项链本体捏的也很厚重。混元整体表现好看很多,宝石的光泽感和体积感都表现出来了。Meshy整体看不错,但中间项链主体也会有模型混在一起的感觉,宝石的反光做的也稍微差一点。
总的来说在文生3D这方面,腾讯混元3D表现的真不错,速度最快,模型和贴图整体的水平比较平衡,需要增强的就是人脸细节的处理能力;Tripo模型质量最高,贴图的细节和提示语理解需要再提高,Meshy则是贴图上偶尔会出问题,需要提升。
接下来我们来看图生3D。图生3D也是AI 3D生成工具的重要功能之一,这次我们每一轮次都用同一张图给到不同的工具,看看他们之间的生成效果差异。
首先,还是先用一张小动物热热身。
整体模型质感最好的是Tripo,但是脸颊旁边有比较明显的纹理裂痕。混元3D的模型和贴图整体和原图最贴近,表现最平衡。Meshy对于动物头顶的毛发还有侧脸模型都处理的稍微有些问题。
再来看个人物图的生成效果:
人脸的面部细节又一次全军覆没,我们测了几次下来,发现全身人像的人脸细节都很难把控,但换成近景的半身人像就会好很多。这一点,还是有很大的进步空间。
接下来我们来看一组植物:
通常植物的页面细节和花瓣细节都是比较难处理的,但可以看到三家对于绿叶植物的展现都很一致,而花瓣的话,同样模型做的都不够轻薄,一只花做成了花簪子的感觉,尤其是Meshy直接错乱。
最后我们来试一下游戏道具:
两个效果一起来看,Tripo的模型处理能力确实厉害,细节更多质感更好,有种古朴之感。混元3D整体的表现依旧很平衡,模型的细节展现也很到位,浮雕和反光做的都不错。Meshy则对于雕刻纹理的处理也不错,但是总会出现一些和原图不一致的细节,打光也需要再增强。
最基础的两个功能测完后,再来测测混元3D和Meshy共有的功能:3D纹理生成。
首先我们用一个王冠的白模,首先来试试文生材质:
可以看到,单看金属材质的话,确实Meshy做的更好一点,金属质感更强烈。
换成图生材质的话,会是什么效果呢?
对于这个图来说,显然,混元3D对于原图的读取更佳准确一点,Meshy红宝石的数量和位置完全对不上。
这个功能其实也很有用,我在上学那会,玩过一小会手搓3D,每一次搓完白模之后贴图时,真的蛮心累的,一方面要调节贴图,另一方面又要调节打光和材质,不学上个很长一段时间,真的很难达到自己想要的效果。但是现在有了这些AI生成工具,一切都不一样了。
开篇我们已经介绍过了,腾讯混元3D这次同步上线的还有很多很好玩的功能。
比如说,一张草图就可以生成出对应的3D人物。
一个正面照片就可以生成一个自己的AI 3D小手办,还有各种各样的模版、姿势可以选择。
甚至还有节点工作流!
虽然现在官方只放出了四个工作流模版供大家使用,但是他们也说后续会陆续开放自定义工作流。那未来,AI 3D模型能玩出多少话,完全就是看大家的创造力了。
很难相信这是3个月不到带来的提升。
当然,混元3D,可以改进的地方也还是不少。比如前面的case里,全身人像模型的脸部细节会丢失,一些模型贴图的纹理和材质的质感还可以再加强。
不过说回来,这次的横评还是非常苛刻的,并没有出现全能王。混元3D能做到这个程度已经很赞了。
等到下版本,结合自定义工作流后,那估计就成了新的小版本之王了。
更重要的是,腾讯混元一向是带着满满诚意而来。
上线即开源,这一点,就已经足够了。
我一直佩服那些能同时兼顾开源和闭源公司,
将模型开源出来就意味着不惧开源社区的考验,而闭源起来做产品又相当于要掌握如何用好这个模型,这中间的平衡相当难把握。
所以,我会一直期待,
混元3D的下一个版本,
给我们,更大的惊喜。
文章来自微信公众号 “ 卡尔的AI沃茨 “,作者 AI沃茨
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。
项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用:https://replicate.com/camenduru/lgm