自数字人技术Omnihuman-1引起行业关注之后,字节智能创作团队再放大招。全新DreamActor-M1横空出世,一张照片一段视频,就能生成电影级视频,精准迁移表情动作,还支持多种画风。
还记得前段时间字节跳动备受关注的数字人技术Omnihuman-1吗?
最近,这支团队一项基于DiT架构的可控人像视频生成技术DreamActor-M1,一经发布,又在推特上引起了超百万量级的关注——
仅需一张静态照片和一段驱动视频,便可生成高质量、达到电影级别的视频,将人像视频生成的表现力提升至全新水平!
项目网页:
https://grisoon.github.io/DreamActor-M1/
论文地址:
https://arxiv.org/pdf/2504.01724
DreamActor-M1不仅能够保留原图中的身份特征,还能精准捕捉并迁移驱动视频中的动作和表情,呈现出高度逼真的效果,极大地简化了现有的动作捕捉、角色动画以及内容创作流程。
据悉,Omnihuman-1技术已经应用于即梦数字人玩法的「大师模式」而DreamActor-M1模型也将于近期上线即梦AI,用户将可以在「数字人」-「动作模仿」功能下体验新模型。相比已有的动作模仿效果,在生成内容逼真度、画风支持、画面比例支持等多个方面将大幅优化。
先一起来看看DreamActor-M1的效果:
玛丽莲梦露不仅能够精准复刻参考视频的动作,保持语音和口型一致,手臂大幅度摆动也不会出现严重的变形或虚影
在日光下,男子随着参考视频动作的同时,能看到光影相应的变化
与以往方法不同,DreamActor-M1采用多控制信号混合驱动架构,能够精准还原从眼神等细腻表情到肢体动作的各类表现,可驱动从真人到卡通的不同形象,支持从肖像画幅到全身画幅的多种画幅,显著增强了单图视频驱动能力的表现力与易用性。
相较于其他SOTA动作迁移和表情迁移工作,DreamActor-M1在人物ID保持、动作表情还原、视频生成质量方面都有着更好表现,为高效完成高质量内容创作创造了新的可能性。
模型上线即梦AI后,平台将对视频内容进行严格的安全审核,并对输出视频添加「AI生成」水印,即梦AI现有的「动作模仿」功能也要求用户上传视频素材需确保拥有合法授权。
字节跳动智能创作团队是字节跳动AI&多媒体技术中台,通过建设领先的计算机视觉、音视频编辑、特效处理等技术,支持抖音、剪映、头条等公司内众多产品线;同时为外部ToB合作伙伴提供业界最前沿的智能创作能力与行业解决方案。
其中数字人团队专注于建设行业领先的数字人生成和驱动技术,丰富智能创作内容生态。该团队的OmniHuman-1 、PersonaTalk、Loopy、CyberHost等前沿创新的数字人成果均已在即梦AI快速应用,未来还将持续通过即梦AI为用户带来新奇和惊喜的体验。
文章来自于“新智元”,作者“编辑部 HYZ”。
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales