摘要
本发明涉及虚拟现实技术领域,提供一种视频生成模型训练方法、3D场景生成方法及装置,所述训练方法包括:获取样本360°视频帧序列和对应的样本描述文本;提取样本视频帧特征序列和对应的样本文本特征,并对样本视频帧特征序列添加随机噪声标签;将加噪后的样本视频帧特征序列输入主网络;确定样本视频帧特征序列中视角不重叠的多个视频帧为关键帧,对各关键帧进行交叉注意力处理;之后将样本视频帧特征序列和样本文本特征输入主网络的时序注意力模块训练LoRA的参数,以输出预测噪声;将预测噪声和随机噪声标签代入损失函数,在损失函数收敛时模型训练完成。本发明训练的视频生成模型输出的360°视频帧序列具有较好的连续性,能够生成较好的3D场景。
技术关键词
视频生成模型
视频帧特征
场景生成方法
随机噪声
样本
序列
注意力
文本编码器
图像解码器
图像编码器
滑动窗口
关键帧
非暂态计算机可读存储介质
场景生成装置
残差网络
时序