摘要
本公开实施例公开了一种视频生成的方法、装置、电子设备、存储介质和产品,方法包括:确定引导图像的图像特征和提示文本的文本特征,基于图像特征、文本特征和预设噪声,利用预先训练的视频生成模型进行预设个时间步的去噪处理,确定目标视频,视频生成模型中的交叉注意力模块包括查询特征映射层、文本键特征映射层、文本值特征映射层、图像键特征映射层和图像值特征映射层,在每个时间步的去噪处理中:交叉注意力模块对图像特征、文本特征、预设噪声进行交叉注意力计算得到交叉注意力输出,以便基于每个时间步的去噪处理以及每个时间步的交叉注意力输出确定所述目标视频。由此提高了生成的目标视频与用户需要之间的匹配度,提升了用户体验。
技术关键词
键特征
视频生成模型
查询特征
标签文本
融合特征
交叉注意力机制
噪声
计算机程序指令
样本
图像特征提取
电子设备
存储计算机程序
特征提取模块
计算机程序产品
系统为您推荐了相关专利信息
感兴趣
功能磁共振成像
更新模型参数
样本
节点特征
物理特征参数
分支
波形
深度学习模型
高维特征向量