久不发声的美团AI，一开口就开源商用数字人—

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

AI资讯 2026-05-22 21:38

+9892 阅读

就在今天，美团龙猫大模型团队突然开源了商用级数字人视频生成模型 LongCat-Video-Avatar 1.5。

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

在权威评测中，它的用户偏好胜率全面超越 Kling Avatar 2.0、OmniHuman-1.5 和 HeyGen 这三个头部玩家，并且直接以 MIT 协议开放，连商用限制都懒得设。

这感觉就像，全班都在秀花活的时候，那个一直安静坐在角落的同学，突然掏出了一张满分的数学卷子。这个 1.5 版本到底强在哪？答案藏在三项拳拳到肉的技术升级里。

一、给数字人换了一副“好耳朵”

数字人视频最怕什么？嘴对不上。嘴唇开合差一点，观众立刻出戏，这就是著名的“恐怖谷效应”。

LongCat-Video-Avatar 1.5 做的第一件事，就是把音频特征提取编码器从 Wav2Vec2 换成了 Whisper-large。这相当于给数字人做了一台精密耳科手术——换上一副能在交响乐里分辨出三角铁弱音的专业耳朵。

它不仅“听清说什么”，更能捕捉 语速变化、重音落点、气息停顿 这些决定自然感的副语言信息。结果就是，哪怕你语速飞快、唱起来、或者中英混杂，嘴唇在哪个音节打开多少度都拿捏得死死的。

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

更重要的是，这个升级不只管嘴唇。面部微表情、头部姿态、肩颈和肢体动作全部跟着语音节奏自然协同。 说到兴奋处眉毛上扬，压低声音时会微微凑近——不再是“嘴在动但脸僵着”的诡异画面，而是一个真的在跟你说话的人。

二、三套数据，教会数字人“说人话、听人话、带着情绪说人话”

商业场景里数字人的形态千奇百怪——真人主播、虚拟偶像、动漫角色甚至拟人动物。光靠一个基础模型不够，还得喂对数据。

美团龙猫团队构建了一套多阶段数据处理流水线，自动过滤低质片段后，专门注入了三类增强数据，像给数字人请了三个顶尖私教：

👥 多人社交课 — 通过主动说话人检测，只保留单人发声的片段，从源头解决多人场景里“围观群众乱张嘴”的毛病，精准锁定真正的说话者。

🤫 倾听修养课 — 大量引入人物沉默的视频片段，让模型学会闭嘴时的自然微表情、视线游移和身体晃动。人不是一直在说话的，嘴唇轻抿、目光流转这些细节，恰恰决定了真实感的最后 10%。

🎭 情绪表演课 — 结合多模态和帧级情绪识别，把语音里的喜怒哀乐直接映射到面部肌肉。开心时苹果肌跟着上扬，严肃时眉头微蹙，告别千人一面的“营业式微笑”。

针对行业最头疼的“手部崩坏”问题，团队引入 GRPO（人类偏好对齐）技术，像一个毒舌导演逐帧打分——手扭了就扣分，手指消失就重来。

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

同时加入首帧手部检测机制，优先训练露手画面。现在，数字人主播可以自信地拿起产品展示，手指该有几根就是几根，不再扭成抽象画。

三、15 倍推理效率提升，飞出实验室

效果再好，用不起也白搭。传统方案需要多个模型并行，显存吃满，推理慢得让人想摔键盘。

LongCat-Video-Avatar 1.5 采用 DMD 分布匹配蒸馏，把生成步骤从 50 步压缩到 8 步。打个比方：原来模型要像学生背课文一样反复琢磨 50 遍，现在用老师模型的精华浓缩成一套 8 遍口诀，效果几乎一样，速度却快了不是一点点。

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

架构上也换成“一个共享基础模型 + 多个轻量级 LoRA 适配器”，显存开销断崖式下降。

官方实测：生成一段 10 秒高质量数字人视频，只需约 1 分钟，推理效率提升约 15 倍。 消费级显卡就能跑，不用去租 A100。

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

以前泡杯咖啡只能等来两秒画面，现在外卖还没到，一个短视频素材已经出炉了。数字人视频生成，从此不再是头部公司的特权。

四、用数据说话：凭什么说“超越闭源”？

技术讲完，看疗效。

美团基于 EvalTalker 构建了覆盖新闻、教育、娱乐、商业等复杂场景的评测基准。由 770 名评估者完成 13,240 条主观评分，10 名领域专家进行结构化分析。结果相当硬核：

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

在具体指标上：

单人场景得分 3.336，多人场景得分 2.730，均大幅领先同类方案
主体变形率仅 23.1%，背景变形率 9.4%，跳帧率更压到 0.8% ——全部优于对比模型

面部-身体同步问题率仅 5.1%，唇形同步问题率 29.8%，同样最低

换成大白话：你看数字人视频，不会再发现眼角莫名其妙抖一下，背景不会像浸了水的墙纸那样慢慢扭曲，切换场景时也不会瞬间变脸。

稳，是商业落地的第一道门槛。LongCat-Video-Avatar 1.5 跨过去了。

五、开源的阳谋：美团下的什么棋？

这次开源用的是 MIT 协议，权重和代码全开放，随便用、随便改、随便集成到商业产品。这不是施舍，是基建布局。

这与美团一贯务实的 AI 战略高度契合：2025 年 9 月发布 5600 亿参数 LongCat-Flash 大模型，2026 年 4 月低调内测万亿参数大模型，全链路国产算力。

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

王兴早就放话：不盲目卷参数，不做“词元工厂”，所有 AI 落地都要解决本地生活的实际问题。

美团太有场景了：外卖直播带货需要能说会动的主播，到店智能导购屏需要虚拟店员，商家后台需要一键生成营销视频的工具。

LongCat-Video-Avatar 1.5 的开源，就是把内部验证过、扛得住真实商业环境的技术交到市场手里，等着生态长出连美团自己都想不到的玩法。

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

数字人视频生成这条赛道，正从“军备竞赛”变成一场“全民运动”。从 Soul 的 SoulX-LiveAct 到 NVIDIA 的 PersonaPlex，从阿里 Wan2.2-Animate 到今天这个模型，开源的力量一次次把门槛踩平。

美团龙猫团队在官宣末尾写道：希望它成为一个“可验证、可改进、可共建的技术基座”。 翻译过来就是：地基打好了，你们在上面盖什么楼，我都很期待。

那个安静坐着的美团同学，翻开卷子，每一道题都做对了。而数字人的下一道大题，现在每个人都可以上来写一笔。

文章来自于微信公众号 “毒AI”，作者 “毒AI”

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址：https://github.com/xszyou/Fay

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales