摘要
本申请实施例提供了一种视频生成方法和装置、电子设备及存储介质,属于视频生成技术领域,适用于金融科技领域。该方法包括:获取样本视频和样本视频生成指示文本;基于预设视频生成模型、预设的时间步数据和样本视频进行自注意力噪声扩散,得到目标噪声;基于预设视频生成模型、时间步数据、样本视频生成指示文本对目标噪声进行语义融合,得到语义噪声;根据预设掩码对语义噪声进行数据拼接,得到掩码噪声;根据掩码噪声和样本视频对预设视频生成模型进行训练,得到目标视频生成模型;获取目标视频生成指示文本,根据目标视频生成模型对目标视频生成指示文本进行视频生成。本申请实施例能够基于文本生成上下连贯的视频。
技术关键词
视频生成模型
语义
视频生成方法
文本
注意力
样本
索引
数据
噪声特征
视频生成技术
视频生成装置
电子设备
场景
模型训练模块
可读存储介质
拼接模块
处理器