摘要
本申请实施例提供了一种视频生成方法和视频生成装置、电子设备、存储介质,涉及人工智能领域,应用于金融科技和医疗领域。该方法包括:获取视频生成场景对应的目标图像和视频配置数据,并对目标图像进行深度估计得到目标深度图;根据目标深度图和目标图像提取多尺度深度特征;根据视频配置数据和目标图像进行视频时序预测,得到时序预测特征;获取预设动态记忆库,预设动态记忆库包含与视频生成场景匹配的场景代表特征;根据场景代表特征、多尺度深度特征和时序预测特征进行特征融合,得到目标融合特征;对目标融合特征进行解码得到多个预测视频帧,并根据多个预测视频帧生成目标合成视频。本申请实施例能够提高生成视频的连贯性和自然度。
技术关键词
预测特征
多尺度特征提取
视频生成模型
融合特征
生成场景
时序
样本
视频帧深度图
视频生成装置
视频生成方法
图像
注意力
记忆
偏移特征
代表
系统为您推荐了相关专利信息
服务访问方法
分数预测模型
注意力模型
客户端
访问第三方服务
融合特征提取
多通道
有载分接开关
Lyapunov指数
信号
多尺度语义特征
文本分类器
词语
多尺度特征
BERT模型
对话生成方法
自然语言理解
大语言模型
多模态信息
融合特征