摘要
本申请实施例提供了一种视频生成方法和装置、电子设备及存储介质,属于金融科技和人工智能技术领域。该方法包括:通过双向注意力层对分词文本序列进行视频帧预测,得到初始视频帧;对初始视频帧进行分词,得到分词视频序列;通过自回归层对分词文本序列及分词视频序列进行视频序列预测,得到目标视频序列;根据目标视频序列生成目标视频。本申请首先通过对分词文本序列进行视频帧预测,提高了视频生成内容的相关性;其次,对初始视频帧进行分词,为后续的视频预测提供了丰富的信息表示;最后,对分词序列进行视频序列预测,并生成目标视频,能够实现通过多次迭代逐步构建视频,确保生成的视频在时间上的连贯性,有效提高了视频生成的准确性。
技术关键词
视频生成模型
序列
双向注意力
视频生成方法
视频帧特征
文本
分词模型
分词训练
视频生成装置
电子设备
可读存储介质
人工智能技术
模块
元素
处理器
编码
索引
系统为您推荐了相关专利信息
沉淀罐
混合罐设备
协同控制方法
钻井泥浆
深度强化学习
RUL预测方法
传感器编码器
滑动时间窗口
梯度更新方法
FFT模型
感知视频压缩方法
面向人机
生成感兴趣区域
语义
预测特征