视频生成模型训练方法、3D场景生成方法及装置

正文

推荐专利

申请号：CN202510863332

申请日期：2025-06-25

公开号：CN120930701A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及虚拟现实技术领域，提供一种视频生成模型训练方法、3D场景生成方法及装置，所述训练方法包括：获取样本360°视频帧序列和对应的样本描述文本；提取样本视频帧特征序列和对应的样本文本特征，并对样本视频帧特征序列添加随机噪声标签；将加噪后的样本视频帧特征序列输入主网络；确定样本视频帧特征序列中视角不重叠的多个视频帧为关键帧，对各关键帧进行交叉注意力处理；之后将样本视频帧特征序列和样本文本特征输入主网络的时序注意力模块训练LoRA的参数，以输出预测噪声；将预测噪声和随机噪声标签代入损失函数，在损失函数收敛时模型训练完成。本发明训练的视频生成模型输出的360°视频帧序列具有较好的连续性，能够生成较好的3D场景。

技术关键词

视频生成模型视频帧特征场景生成方法随机噪声样本序列注意力文本编码器图像解码器图像编码器滑动窗口关键帧非暂态计算机可读存储介质场景生成装置残差网络时序

视频生成模型训练方法、3D场景生成方法及装置

站点导航

APP 下载