一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

AI资讯 2025-06-06 16:52

+9368 阅读

本来没想写HeyGen，毕竟在国内用起来有点累。

起因是我们受邀和HeyGen第一次做了联名影片，在内测的过程里，这款名为AVATAR IV的数字人产品实在让我有点惊讶，于是突发奇想：

只用一张图，做一段rap歌手的mv。效果如下：

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

这是我们和HeyGen的联名MV：“Vibin'”。

其实用图片生成数字人说话视频，是很常见的功能。但AVATAR IV的一些优点，我确实并未在其他产品看到过：

使用提示词精确控制手势
超快速说唱歌曲，口型匹配几乎完美，提供微表情
支持一分钟的直出影像，画面无任何质量衰减

这是我认为AVATAR IV最重要的三个优点/特点。而经常使用图片生成数字人的朋友，应该知道这三点是这个领域的老大难问题。

所以在这支说唱MV中，我没有切任何多角度镜头，就是为了聚焦测试它的这些特性。

精确控制手势

最早的图片驱动数字人，是没有肢体动作的，只有嘴动，后来是头动（还有人记得D-id吗），再后来就陆续支持身体和手势。但存在一个很大的不确定性：这些动作手势都是随机的，你没法控制它，导致“多动”和“死板”现象。

AVATAR IV的解决方案是，你可以直接用提示词控制手势。而且完成的相当好。

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

怎么用一眼就明白吧，至于效果，就是我影片中的样子。

实测下来，基本上提示词都能有正确响应，效果极其出色。首先肢体动作很自然，其次，也是非常关键的：

手指几乎没有崩坏。

以下是我测试中的截图，手势在快速不停的变化，你会发现手指数量和形态几乎稳定高质量输出。

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

强得离谱，没有任何崩坏。并且已经非常接近“说唱”手势的要求。

如果需要再精确，你可以在提示词里写“向上指”这样的描述，它会听话，缺点是偶尔会出现重复做这个动作的情况。

是的，依然需要开盲盒，目前来说，如果你追求100%成功率的AI视频产品，建议还是再等等。“秒出”、“轻松”、“无脑”这些词基本是科幻小说的领域。

合理性非常好，非常自然，不会在那不停的傻动或者干脆不动：

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

高速口型匹配

目前的数字人，把口型张对已经是基本功。人物角度也基本都开始支持侧面了（最早只能是正面）。但当你的配音过快时，大部分产品都吃不消，出现崩坏。

为了测试这个性能，我特意写了一首快速RAP，接近人类说话的极限速度了，还能顺便测试唱歌的效果，至于表现，MV大家已经看到了，是完全符合我自己的预期的，甚至有些小惊喜。

为了更好地看清楚高速口型，我特意把视频放大到240%的比例（所以清晰度实际是没有问题的），聚焦看一下女孩的面部。

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

是的，AVATAR完成的极度准确。

最吓人的是下面这段自己做的摇头动作，配合歌词临场发挥，我根本没给她这个精确的提示词，太到位了。

这就是HeyGen在官方信息里提到的：微表情。确实很厉害。

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

最长支持单镜头一分钟

数字人让人最郁闷的一点是，一般都支持10几秒这种总比较短的时间长度。这就导致你得把一段长音频剪得很碎，再拼起来。工作量不说，也无法实现长镜头。HeyGen这次想明白了，直接支持到1分钟。

足够你浪的。

X上有个老哥说我看错了，我赶紧回去检查了一下：没错，是60秒。

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

这点很重要，效率大幅提升。毕竟把一个长音频剪碎，再拼上是个绝对烦人的事儿。

这步子迈得很大，但走得还挺稳的：AVATAR IV的质量并不会因为时间长了出现衰减或者涂抹感。然后画质是...

1080P。

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

嗯，这些都是我这条MV中的截图，快速运动中这种清晰度，手指还是对的，还要什么自行车。

缺点：贵。。。

写到这儿我才反应过来，可能会被骂。因为它确实不便宜。

此刻是凌晨3:30，所以如果我看错了这张表格，请提醒我。如果没看错，那么差不多是280块钱，5分钟。

如果按视频模型的常用单位，10秒一个镜头长度来计算的话。大概是9块多一个镜头（10秒）。

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

至于贵不贵，见仁见智吧。

但我觉得确实算不上便宜，尤其是长镜头，一但开卡错误，成本就很夸张。想想你生成了一个60秒的镜头，发现不是你想要的。那么。。。

嗯，没事，反正大部分同学想用它也挺费劲的。

总结

截至2025年6月6号。HeyGen的Avatar IV应该是最好的数字人产品之一。是不是目前No.1，我不敢下结论，但在前文讲到的三个竞争优势，我自己是没有找到表现更好的产品。

再强调一遍：

使用提示词精确控制手势
超快速说唱歌曲，口型匹配几乎完美，提供微表情
支持一分钟的直出影像，画面无任何质量衰减

所以如果这几点对你很重要，HeyGen值得一试。但我不建议任何非刚需爱好者重度氪金，对于这样有明显自己特色的产品，适当体验一下没问题，别一上来就花太多钱，没必要。

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

这次测试给我的感受不错，有个原因是，当工具开始让我慢慢不用折腾冗长的复杂工作流，我可以把精力更多地放在创意和音乐上。这好像也是第一次，我花在写歌的时间比视频更长。

虽然说更独特的效果一定会需要更复杂的工具，但不能否认这种简单工具能带给创作一种松弛感。就像这首Rap的名字一样：“Vibin'”。

我还挺喜欢的。

文章来自于微信公众号“汗青 AITalk”。

一张图，一个虚拟偶像，实测HeyGen最新数字人：令人惊叹的AVATAR IV。

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址：https://github.com/xszyou/Fay

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales