摘要
本申请涉及人工智能技术领域,提供了一种全景视频生成方法、装置、电子设备及可读存储介质。该方法包括:获取视频帧数据和目标文本,并基于目标文本得到文本特征;将视频帧数据和文本特征输入至运动适配器,对视频帧数据进行图像特征提取,得到图像特征;将所述图像特征与预设时间步对应的时间步嵌入进行融合,得到目标融合特征,对所述目标融合特征和文本特征进行运动特征提取,得到运动特征;基于文本特征、运动特征以及噪声图进行扩散处理,得到全景视频帧序列,并基于全景视频帧序列得到目标全景视频。本申请可以基于时间步对应的运动特征生成高质量的全景视频帧序列,从而得到高质量目标全景视频。
技术关键词
运动特征
融合特征
视频帧
全景视频生成方法
文本
网络
图像特征提取
交叉注意力机制
时空卷积特征
动态特征提取
模块
多模态
适配器
数据
序列
图片