久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了
2026-05-22 21:38

就在今天,美团龙猫大模型团队突然开源了商用级数字人视频生成模型 LongCat-Video-Avatar 1.5。


久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了


在权威评测中,它的用户偏好胜率全面超越 Kling Avatar 2.0、OmniHuman-1.5 和 HeyGen 这三个头部玩家,并且直接以 MIT 协议开放,连商用限制都懒得设。


这感觉就像,全班都在秀花活的时候,那个一直安静坐在角落的同学,突然掏出了一张满分的数学卷子。这个 1.5 版本到底强在哪?答案藏在三项拳拳到肉的技术升级里。


一、给数字人换了一副“好耳朵”


数字人视频最怕什么?嘴对不上。嘴唇开合差一点,观众立刻出戏,这就是著名的“恐怖谷效应”。


LongCat-Video-Avatar 1.5 做的第一件事,就是把音频特征提取编码器从 Wav2Vec2 换成了 Whisper-large。这相当于给数字人做了一台精密耳科手术——换上一副能在交响乐里分辨出三角铁弱音的专业耳朵。


它不仅“听清说什么”,更能捕捉 语速变化、重音落点、气息停顿 这些决定自然感的副语言信息。结果就是,哪怕你语速飞快、唱起来、或者中英混杂,嘴唇在哪个音节打开多少度都拿捏得死死的。


久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了


更重要的是,这个升级不只管嘴唇。面部微表情、头部姿态、肩颈和肢体动作全部跟着语音节奏自然协同。 说到兴奋处眉毛上扬,压低声音时会微微凑近——不再是“嘴在动但脸僵着”的诡异画面,而是一个真的在跟你说话的人。


二、三套数据,教会数字人“说人话、听人话、带着情绪说人话”


商业场景里数字人的形态千奇百怪——真人主播、虚拟偶像、动漫角色甚至拟人动物。光靠一个基础模型不够,还得喂对数据。


美团龙猫团队构建了一套多阶段数据处理流水线,自动过滤低质片段后,专门注入了三类增强数据,像给数字人请了三个顶尖私教:


👥 多人社交课 — 通过主动说话人检测,只保留单人发声的片段,从源头解决多人场景里“围观群众乱张嘴”的毛病,精准锁定真正的说话者。


🤫 倾听修养课 — 大量引入人物沉默的视频片段,让模型学会闭嘴时的自然微表情、视线游移和身体晃动。人不是一直在说话的,嘴唇轻抿、目光流转这些细节,恰恰决定了真实感的最后 10%。


🎭 情绪表演课 — 结合多模态和帧级情绪识别,把语音里的喜怒哀乐直接映射到面部肌肉。开心时苹果肌跟着上扬,严肃时眉头微蹙,告别千人一面的“营业式微笑”。


针对行业最头疼的“手部崩坏”问题,团队引入 GRPO(人类偏好对齐)技术,像一个毒舌导演逐帧打分——手扭了就扣分,手指消失就重来。


久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了


同时加入首帧手部检测机制,优先训练露手画面。现在,数字人主播可以自信地拿起产品展示,手指该有几根就是几根,不再扭成抽象画。


三、15 倍推理效率提升,飞出实验室


效果再好,用不起也白搭。传统方案需要多个模型并行,显存吃满,推理慢得让人想摔键盘。


LongCat-Video-Avatar 1.5 采用 DMD 分布匹配蒸馏,把生成步骤从 50 步压缩到 8 步。打个比方:原来模型要像学生背课文一样反复琢磨 50 遍,现在用老师模型的精华浓缩成一套 8 遍口诀,效果几乎一样,速度却快了不是一点点。


久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了


架构上也换成“一个共享基础模型 + 多个轻量级 LoRA 适配器”,显存开销断崖式下降。


官方实测:生成一段 10 秒高质量数字人视频,只需约 1 分钟,推理效率提升约 15 倍。 消费级显卡就能跑,不用去租 A100。


久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了


以前泡杯咖啡只能等来两秒画面,现在外卖还没到,一个短视频素材已经出炉了。数字人视频生成,从此不再是头部公司的特权。


四、用数据说话:凭什么说“超越闭源”?


技术讲完,看疗效。


美团基于 EvalTalker 构建了覆盖新闻、教育、娱乐、商业等复杂场景的评测基准。由 770 名评估者完成 13,240 条主观评分,10 名领域专家进行结构化分析。结果相当硬核:


久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了


久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了


久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了


在具体指标上:


  • 单人场景得分 3.336,多人场景得分 2.730,均大幅领先同类方案
  • 主体变形率仅 23.1%,背景变形率 9.4%,跳帧率更压到 0.8% ——全部优于对比模型


  • 面部-身体同步问题率仅 5.1%,唇形同步问题率 29.8%,同样最低


换成大白话:你看数字人视频,不会再发现眼角莫名其妙抖一下,背景不会像浸了水的墙纸那样慢慢扭曲,切换场景时也不会瞬间变脸。


稳,是商业落地的第一道门槛。LongCat-Video-Avatar 1.5 跨过去了。


五、开源的阳谋:美团下的什么棋?


这次开源用的是 MIT 协议,权重和代码全开放,随便用、随便改、随便集成到商业产品。这不是施舍,是基建布局。


这与美团一贯务实的 AI 战略高度契合:2025 年 9 月发布 5600 亿参数 LongCat-Flash 大模型,2026 年 4 月低调内测万亿参数大模型,全链路国产算力。


久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了


王兴早就放话:不盲目卷参数,不做“词元工厂”,所有 AI 落地都要解决本地生活的实际问题。


美团太有场景了:外卖直播带货需要能说会动的主播,到店智能导购屏需要虚拟店员,商家后台需要一键生成营销视频的工具。


LongCat-Video-Avatar 1.5 的开源,就是把内部验证过、扛得住真实商业环境的技术交到市场手里,等着生态长出连美团自己都想不到的玩法。


久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了


数字人视频生成这条赛道,正从“军备竞赛”变成一场“全民运动”。从 Soul 的 SoulX-LiveAct 到 NVIDIA 的 PersonaPlex,从阿里 Wan2.2-Animate 到今天这个模型,开源的力量一次次把门槛踩平。


美团龙猫团队在官宣末尾写道:希望它成为一个“可验证、可改进、可共建的技术基座”。 翻译过来就是:地基打好了,你们在上面盖什么楼,我都很期待。


那个安静坐着的美团同学,翻开卷子,每一道题都做对了。而数字人的下一道大题,现在每个人都可以上来写一笔。


文章来自于微信公众号 “毒AI”,作者 “毒AI”

1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群