一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。

搜索
AI-TNT
正文
资源拓展
一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。
2025-06-06 16:52

一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


本来没想写HeyGen,毕竟在国内用起来有点累。


起因是我们受邀和HeyGen第一次做了联名影片,在内测的过程里,这款名为AVATAR IV的数字人产品实在让我有点惊讶,于是突发奇想:


只用一张图,做一段rap歌手的mv。效果如下:


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


这是我们和HeyGen的联名MV:“Vibin'”。


其实用图片生成数字人说话视频,是很常见的功能。但AVATAR IV的一些优点,我确实并未在其他产品看到过:


  1. 使用提示词精确控制手势
  2. 超快速说唱歌曲,口型匹配几乎完美,提供微表情
  3. 支持一分钟的直出影像,画面无任何质量衰减


这是我认为AVATAR IV最重要的三个优点/特点。而经常使用图片生成数字人的朋友,应该知道这三点是这个领域的老大难问题。


所以在这支说唱MV中,我没有切任何多角度镜头,就是为了聚焦测试它的这些特性。


精确控制手势


最早的图片驱动数字人,是没有肢体动作的,只有嘴动,后来是头动(还有人记得D-id吗),再后来就陆续支持身体和手势。但存在一个很大的不确定性:这些动作手势都是随机的,你没法控制它,导致“多动”和“死板”现象。


AVATAR IV的解决方案是,你可以直接用提示词控制手势。而且完成的相当好。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


怎么用一眼就明白吧,至于效果,就是我影片中的样子。


实测下来,基本上提示词都能有正确响应,效果极其出色。首先肢体动作很自然,其次,也是非常关键的:


手指几乎没有崩坏。


以下是我测试中的截图,手势在快速不停的变化,你会发现手指数量和形态几乎稳定高质量输出。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


强得离谱,没有任何崩坏。并且已经非常接近“说唱”手势的要求。


如果需要再精确,你可以在提示词里写“向上指”这样的描述,它会听话,缺点是偶尔会出现重复做这个动作的情况。


是的,依然需要开盲盒,目前来说,如果你追求100%成功率的AI视频产品,建议还是再等等。“秒出”、“轻松”、“无脑”这些词基本是科幻小说的领域。


合理性非常好,非常自然,不会在那不停的傻动或者干脆不动:


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


高速口型匹配

目前的数字人,把口型张对已经是基本功。人物角度也基本都开始支持侧面了(最早只能是正面)。但当你的配音过快时,大部分产品都吃不消,出现崩坏。


为了测试这个性能,我特意写了一首快速RAP,接近人类说话的极限速度了,还能顺便测试唱歌的效果,至于表现,MV大家已经看到了,是完全符合我自己的预期的,甚至有些小惊喜。


为了更好地看清楚高速口型,我特意把视频放大到240%的比例(所以清晰度实际是没有问题的),聚焦看一下女孩的面部。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


是的,AVATAR完成的极度准确。


最吓人的是下面这段自己做的摇头动作,配合歌词临场发挥,我根本没给她这个精确的提示词,太到位了。


这就是HeyGen在官方信息里提到的:微表情。确实很厉害。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


最长支持单镜头一分钟


数字人让人最郁闷的一点是,一般都支持10几秒这种总比较短的时间长度。这就导致你得把一段长音频剪得很碎,再拼起来。工作量不说,也无法实现长镜头。HeyGen这次想明白了,直接支持到1分钟。


足够你浪的。


X上有个老哥说我看错了,我赶紧回去检查了一下:没错,是60秒。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


这点很重要,效率大幅提升。毕竟把一个长音频剪碎,再拼上是个绝对烦人的事儿。


这步子迈得很大,但走得还挺稳的:AVATAR IV的质量并不会因为时间长了出现衰减或者涂抹感。然后画质是...


1080P。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


嗯,这些都是我这条MV中的截图,快速运动中这种清晰度,手指还是对的,还要什么自行车。


缺点:贵。。。


写到这儿我才反应过来,可能会被骂。因为它确实不便宜。


此刻是凌晨3:30,所以如果我看错了这张表格,请提醒我。如果没看错,那么差不多是280块钱,5分钟。


如果按视频模型的常用单位,10秒一个镜头长度来计算的话。大概是9块多一个镜头(10秒)。

一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


至于贵不贵,见仁见智吧。


但我觉得确实算不上便宜,尤其是长镜头,一但开卡错误,成本就很夸张。想想你生成了一个60秒的镜头,发现不是你想要的。那么。。。


嗯,没事,反正大部分同学想用它也挺费劲的。


总结


截至2025年6月6号。HeyGen的Avatar IV应该是最好的数字人产品之一。是不是目前No.1,我不敢下结论,但在前文讲到的三个竞争优势,我自己是没有找到表现更好的产品。


再强调一遍:


  1. 使用提示词精确控制手势
  2. 超快速说唱歌曲,口型匹配几乎完美,提供微表情
  3. 支持一分钟的直出影像,画面无任何质量衰减


所以如果这几点对你很重要,HeyGen值得一试。但我不建议任何非刚需爱好者重度氪金,对于这样有明显自己特色的产品,适当体验一下没问题,别一上来就花太多钱,没必要。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


这次测试给我的感受不错,有个原因是,当工具开始让我慢慢不用折腾冗长的复杂工作流,我可以把精力更多地放在创意和音乐上。这好像也是第一次,我花在写歌的时间比视频更长。


虽然说更独特的效果一定会需要更复杂的工具,但不能否认这种简单工具能带给创作一种松弛感。就像这首Rap的名字一样:“Vibin'”。


我还挺喜欢的。


文章来自于微信公众号“汗青 AITalk”。


一张图,一个虚拟偶像,实测HeyGen最新数字人:令人惊叹的AVATAR IV。


1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号