摘要
本申请涉及一种视频生成方法、装置、电子设备及存储介质,该方法包括:获取用户输入的视频描述文本;根据所述视频描述文本生成初始噪声序列;使用预设更新策略,对所述初始噪声序列进行更新,得到目标噪声序列;将所述目标噪声序列转换为对应像素值集合,基于所述像素值集合生成所述视频描述文本对应目标视频。在噪声序列的更新过程中有效地融合了时间维度的约束,针对不同时空特性的区域进行差异化处理,并且增强了运动的连贯性,得到满足预设要求的更新噪声序列,进而生成目标视频,提升了生成视频的观感和实用性。
技术关键词
噪声
序列
视频生成方法
文本
注意力模型
像素
视频生成装置
策略
特征提取单元
电子设备
运动向量
运动检测
处理器
模块
存储器
数据
关系