撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载

撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon
AI资讯 2026-06-20 20:20
+8216 阅读

一觉醒来,AI的新潮流变成了养猫???


火速围观一下,刚刚全球流式音视频模型赛道闯进了一匹黑马,能力SOTA级,模型名字就叫缅因猫(MaineCoon)


养过缅因猫的朋友都知道,这个品种有个外号叫「猫狗」,意思是几乎你走到哪儿,它就跟到哪儿,相当粘人,互动感MAX。


而模型MaineCoon和它几乎是如出一辙,不会一股脑生成完就跑,而是一直陪着你、follow你的状态,实时地往下走。


比如这样:


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon


给它一段文字,它直接边生成边播放,还能做到音画同出,效果就像是在和真人主播1V1视频对话,而且永远不会卡顿。


时长可达30分钟以上,这也是业界首次实现这个长度。


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon


此外,MaineCoon的推理速度也很突出——


22B参数的大小,却能在单张H100上跑出47.5 FPS,同赛道速度位居业界第一;即使是在只有H100一半成本的推理卡RTX Pro 6000上,也能稳定保持30 FPS以上的实时运行速度。


具体什么概念呢?


假设我手里有一张GPU,用MaineCoon生成一条10秒的短视频,⾸帧将在3s以内出现,随后开始流式输出,新增prompt与实时输出无缝衔接,全程过渡丝滑自然。


成本直接被打下来,每秒成本控制在0.001美元以内。


如果在GPU占满的状态下,每秒推理更是仅需0.00025美元,是Veo 3的1/2000、Seedance的1/560。


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型


而这些,来自一家base中国的10人初创团队,名叫Catnip(猫薄荷)


几天前,他们刚刚在𝕏上发布了技术报告,就迅速收获多方关注,其中LTX官⽅也注意到了这家新面孔,并主动寻求合作。


话不多说,来看具体效果。


效果show time


其实MaineCoon和一般的音视频生成模型还不太一样,它首次将场景垂直落地在社交交互中。


何为社交?就是活人感


且看各家现有的生成模型卷到飞起,Benchmark表现一个赛一个亮眼,但依旧有硬伤:


要么速度太慢,要等完整生成后才能看到效果,根本没法实时,对创作者并不友好;要么做得了视频,却顾不上音频,音画永远分开走。


这类通用音视频模型更擅长模拟物理规律和场景叙事,天空中的云怎么飘、水面的光怎么反射,它们拿捏得很准,但一到人物表现上就屡屡翻车。


于是判断AI视频与否,大家总结出一条心照不宣的经验——看脸


要做社交距离也不露怯的视频,关键在于人物细节是不是够自然,比如眼神的变化、嘴角的抽搐、说话的节奏等等,还要音画高度同步、生成过程中随时可切换指令。


难度系数拉满了,但这些细节才是决定活人感的关键。


所以MaineCoon瞄准的,正是这个被整个行业忽视掉的缺口。


具体来说,它做到了三件此前没有模型能同时做到的事。


音视频流式生成


先科普一下,什么是流式生成


这并非新鲜概念,最早ChatGPT一个字一个字往外蹦,就是流式输出。简单来说,就是让模型能够边看边生,推理到哪儿,就生成到哪儿。


但视频的一帧涉及到成千上万个像素,还要和音频在时间轴上精准对齐,和单纯文字流式生成的难度完全不在同一个量级上。


而且生成片段越小,就意味着每一帧能依赖的历史上下文越短,模型就更容易露馅。


MaineCoon则把这个单元极致压缩到了亚秒级,指令输出后1秒内就出首帧,低延迟和高质量两手抓。不止快了一点,更是生成方式的彻底改变。


比如下面模拟人物对话,初始Prompt要求人物语气平静且深思熟虑,结果无论是角色的面部肌肉走向,还是语气停顿,都精准遵循指令。


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon


中间实时输入新的指令,模型也能及时调整:


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon


让角色做大幅度表情,也同样表现优秀:


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon


也可以随时提出问题让角色解答:


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon


不得不说,相比过去AI一句指令就出一堆回复的生硬别扭,MaineCoon的最大差异在于给予用户真人聊天的即视感,会接用户的话,也会给用户情绪。


这大概就是养猫人常说的——你以为你在撸猫,其实猫也在撸你。


业界最快的推理速度


速度更不必多说,亲测体验下来,同类流式音视频模型的速度普遍在6-7 FPS,MaineCoon快了整整7倍


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型


即使是持续生成一整天,成本也都能维持在一个合理范畴内。模型虽然有22B,但单卡就能部署(最高47.5 FPS)


相比1.3B的轻量流式视频模型(19.1FPS)也要快2倍以上,轻松满足实时播放需求。


更关键的是,这样的速度不仅没有牺牲质量,反而情感表达更丰富,动作也更连贯稳定


比如我们把场景搬到室外,日落时分的光影结合角色随风飘扬的发丝,说是真人博主在随意记录自己的City Walk也不为过。


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon


无限时长生成


根据官方介绍,MaineCoon还能做到连续生成10分钟以上的音视频内容,期间保持画质、一致性、音画同步都不崩。


毫不夸张地说,MaineCoon的架构甚至完全可以无限生成。


这里以一个长达2分钟的MaineCoon视频为例,直到最后,人物都没有出现明显bug。


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon


即使是动画风格的Minecraft小人,长时序也能稳稳接住。


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型MaineCoon


Catnip还同步自建了首个社交短视频专用基准测试SocialVideo Bench,以直观展示MaineCoon的表现。


SocialVideo Bench涵盖密集演讲、双人互动、音乐演唱、情绪表演、舞蹈、创意挑战、社交梗七大场景,九项指标全面考核视觉质量、运动质量、音质、音画对齐。


其中,MaineCoon均超越主流的7款音视频生成模型,综合得分0.934,远超最优基线SoulX-FlashTalk(0.895),刷新SOTA


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型


问题是——MaineCoon是如何做到的?


三层训练,三层推理


先说训练侧


MaineCoon的训练框架主要分三个阶段,层层递进:


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型


Step 1:自重采样(Self-Resampling)


这一步解决的是推训之间的鸿沟问题。传统训练中会用干净的历史帧做上下文,但真实推理时模型只能用自己生成的帧,二者之间存在偏差,而且时间一久,越生成越跑偏。


自重采样能够让模型在训练时就接触到降质版的历史帧,从一开始就学会在带有轻微漂移、噪声的不完美条件下保持稳定。


Step 2:流式表征对齐(Representation Alignment)


音画联合训练实际上是很慢的,为了加快收敛速度,MaineCoon会引入冻结预训练V-JEPA 2视觉编码器做蒸馏监督。


于是模型能够更快学到跨模态的语义结构,大幅提升训练效率,也可以简单将其理解为一个训练加速器和稳定器。


Step 3:域感知偏好优化(DPO)+强化在线策略蒸馏(ROPD)


这是模型的后训练核心,针对不同社交场景,比如舞蹈看重动态、对话看重唇同步、远景看重人体结构,分别训练专门的偏好专家模型,再通过强化蒸馏统一成一个可部署的流式策略。


这样既精准,又轻量。


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型


然后在此基础之上,要让模型在有限的算力资源上真正跑起来,团队还精心设计了一套基础设施工程


毕竟22B模型的参数量太大,不处理,一张卡根本装不下。


具体来说,64张H100分摊参数,长序列切开并行处理,精度和优化器状态则能压则压。


最关键的一步是把视频编码、文本嵌入、教师特征全部提前算好存进磁盘,训练时直接读取,而GPU只做最核心的那一步,不做任何多余的搬砖工作。


结果就是,22B的模型,在10k GPU小时内就训练完成,数据一共不到100万条


推理侧同样有一套创新的Agentic推理框架,该框架由三个独立的智能控制器构成,分别是DirectorCache ManagerBuffer Controller


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型


首先是Director,这也是整个系统的认知核心,专门负责叙事与纠错。


Director先通过规划器逐节拍生成结构化提示词(画面描述+台词+环境音),以维持人物人设、避免叙事重复。


然后观测器持续监测生成内容是否出现质量漂移,一旦发现问题就启动前向修复,不中断、不重置,直接在下一帧开始纠偏。


这样做是为了缓解流式长视频最容易出现的问题之一:畸变


生成时间越长,误差累积就越严重,因为模型在生成当前chunk时,参考的是前一个chunk,但殊不知前一个chunk已经相对第1个chunk偏移了。之后每一步的微小偏差叠加起来,人物就会严重畸变。


所以MaineCoon从推理的第一步起,就试图将偏差遏制在摇篮中。


随后观测器会将观测结果返回给Director,主导记忆的缓存管理器通过拿到Director的输出,开始执行管理KV缓存的保留与清除策略,它会将角色外观、场景建立帧、关键对话帧作为长期记忆锚点保留,同时定期用统计锚点修正全局外观漂移。


同时因为MaineCoon生成速度快于播放速度,会自然积累起一段已生成但未播放的缓冲内容。


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型


为了平衡实时性与交互响应,前瞻缓冲区控制器会负责把这段超前量控制在合理窗口内,既保证播放不卡顿,又保证用户的交互指令能在合理延迟内生效。


简单来说,这部分就是一个写剧本、一个管记忆、一个控节奏——三者分工明确、互不干扰,共同支撑起了无限续流。


但这还不是全部。


下一步是社交世界模型


MaineCoon甚至还只是Catnip的起点。


他们真正的野心,藏在MaineCoon的定位上——社交世界模型


这个概念由Catnip独家首次提出,旨在弥补一段行业内长期视而不见的空白:


现有的视频世界模型,无论做得多么精密,本质都还是在模拟物理世界。它们重视苹果如何垂直落地,车辆如何克服摩擦力运动,而人在其中扮演的角色更像是一种会动的物体,辅助场景完成画面。


社交世界模型要做的恰恰相反。


它直接把人当作坐标系的中心,主动观察用户的情绪状态,以人为原点模拟社交行为的走向,然后利用实时音视频的方式做出合理反应。


团队认为其包含三个层面:感知层(读懂用户情绪)→ 模拟层(预测社交行为)→ 渲染层(实时生成音视频)。MaineCoon正是第三层的突破。


选择渲染这一层作为首要切入点,一方面是因为渲染层是最难,但也是整个系统的最终出口,如果没有实时生成能力,前两层再强也没有用武之地。


另一方面,业界始终缺乏一个推理快、成本低、质量高的流式音视频模型,先做这个,也是从商业角度考虑的最优解。


再往后看,下一步就是摆脱传统AI对话的半双工轮流交互模式,实现人类式连续、交错、多模态的实时双向交互。


也就是AI能一边持续生成,一边感知用户的实时反馈(包括文本、语音、视频),像真人对话一样即时调整。


而当这一层被彻底打通,模型和应用层之间的闭环才真正形成。Catnip也在积极推进将其落地为一个可交互的内容平台,支持海量用户实时感应、实时生成。


撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型


至于为什么Catnip能率先意识到这一点,我们可以从这支团队入手。


有趣的是,缅因猫这个品种一开始也是工作猫起家,专职捕鼠、保粮仓,基因里自带实用主义。


这与Catnip给人的印象不谋而合——


成立大半年,没有任何公开露面,相当低调,日常就是专注埋头干活,唯一对外的动作就是这次把技术报告挂上arxiv。


不鸣则已,一鸣惊人。


但即便在水下,这支团队也已经被最具洞察的投资人抢着押注。


开年这几个月,就连续收获了红杉、明势等头部VC的天使轮+融资,不仅因为团队是一群00后青春风暴,还罕见拥有一线实战经验,既懂技术又懂商业


创始人杨姝瑞虽然很年轻,但曾在TikTok和PixVerse做产品,推动过多款爆款模版特效从0-1落地。除此之外,杨姝瑞也是连续创业者,第⼀段创业合伙创办海外社媒营销agency VANZO MEDIA,实现了千万年度营收。


主导算法研发的是⾸席科学家、⾹港科技⼤学(⼴州)助理教授谢泽柯,拥有中科⼤本科、东京⼤学博⼠教育背景,曾在百度研究院参与⼤模型的前沿研究,并⻓期担任NeurIPS、ICLR、ICML等AI顶级会议的领域主席。


另外,团队还有一群02/03年的应届生小伙伴,在极具创造力地工作。


且看MaineCoon的研发过程,据官方介绍,项目正式启动是从今年3月开始,3名核心研究员,只用了2个月时间就完成了模型训练、训练架构、数据基建、推理系统的全栈交付。


方法也很激进,直接全程使用AI Native:人定框架和思路,AI执行具体计划;人搭数据infra,AI跑流水线。


但正是这样的打法,最终效果惊艳,成果说话——MaineCoon火了。


其实用团队的话来说,MaineCoon更像是一只时刻感知用户内心状态的真正的猫


当生成式AI正在从被动内容工具走向社交主动参与者,作为能感知、回应和记住用户的AI存在,它承载着人类共同的情感交互需求。


MaineCoon是这个方向上踏出的第一步,而且更重要的是它映射出的信号:


下一代社交平台的底层引擎,已经被按下了开始。


文章来自于微信公众号 “量子位”,作者 “量子位”

1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案