B 站开源动画视频生成模型 Index-AniSora,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!
整个工作技术原理基于 B 站提出的 AniSora 实现,该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统,是首个专为二次元视频生成打造的技术框架,全面提升动画内容的生产效率与质量。
喜欢的漫画一键出动画效果,支持多种小众画风,效果更加丰富,从此告别 「PPT 动画」
引导帧首帧
生成的视频
引导帧首帧
生成的视频
引导帧首帧
生成的视频
引导帧首帧
生成的视频
简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路,构建了超过千万条高质量的文本 - 视频对,包含了大量不同风格、类型、内容的高质量动画数据,为模型训练提供了坚实的数据基础。
其次,针对动画生成的独特需求,我们开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。
最后,我们设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化,使其更好地理解动漫语境与 ACG 审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。
时域条件控制(对应任务如视频插帧、扩写开头)
引导帧首帧
尾帧
生成的视频
引导帧尾帧
生成的视频
运动空间条件控制
引导帧首帧
运动掩码 1
生成的视频(带有掩码的可视化)
运动掩码 2
生成的视频(带有掩码的可视化)
运动强度控制
引导帧首帧
正常强度
大幅强度
详细的技术方案,请看:
本次开源内容包括:
AniSoraV1.0:基于 CogVideoX-5B 基座模型训练,包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制(首帧引导、尾帧引导、关键帧插值、多帧引导等)。4090 可部署的高性价比模型,支持覆盖 80% 的应用场景。
AniSoraV2.0:基于 Wan2.1-14B 基座模型训练,基座模型更强,效果更加稳定,覆盖 90% 的应用场景。采用蒸馏加速方案,保证效果的同时,提升推理性能。同样,会发布全部的训练和推理代码,包括对国产芯片华为 910B 高效分布式训练的支持,AniSora 模型完全基于国产芯片训练完成。
训练数据集构建的全链路模型,帮助快速扩展训练数据。
基于动画数据优化的 Benchmark 系统,专门为动画视频生成领域研发的自动化评测系统,以及标准测试数据集,更加符合 ACG 审美要求。
此外,我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL,提供更加高效的视频效果强化训练,更加符合二次元审美的模型。该工作的预印版已经整理在arxiv上。
下面简单说它的原理。
我们为动漫视频生成任务构建了首个包含 30,000 条人工标注样本的高质量奖励数据集,涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。
基于此,我们设计了 AnimeReward 奖励模型,针对不同维度特征,引入专门的视觉 - 语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法(GAPO),通过显式建模正负样本间的偏好差距,强化奖励信号,引导模型更高效地学习人类偏好,显著提升对齐性能。
如果你已经跃跃欲试了,快前往:
文章来自于“机器之心”,作者“机器之心”。
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0