Step-Video-T2V

访问

419

2142

开源，基于文本生成 204 帧视频

Step-Video-T2V是StepFun的开源文本到视频模型系列。支持高达204帧的生成，采用高压缩的Video-VAE，并通过基于视频的DPO提升质量。在Step-Video-T2V-Eval上达到了SOTA水平。