摘要
本公开关于一种视频生成方法、装置、电子设备及存储介质,方法包括:获取当前特征序列;在当前输出帧为首个视频帧,将当前特征序列输入至大语言模型,获得当前输出帧的隐式视频特征;以及,将当前输出帧的隐式视频特征输入至扩散模型,输出当前输出帧的视频帧编码,并根据当前输出帧的视频帧编码,生成当前输出帧的视频帧图像;在当前输出帧为任一非首个视频帧,将扩散模型输出的,当前输出帧的上一个输出帧的视频帧编码,作为当前输出帧的视频帧特征,并将当前输出帧的视频帧特征添加至当前特征序列中,得到更新后特征序列,将更新后特征序列作为当前特征序列;重复前述步骤,生成当前输出帧的视频帧图像,提高了视频生成质量。
技术关键词
视频帧特征
视频生成方法
序列
大语言模型
噪声图像
电子设备
噪声级别
对象
计算机程序产品
视频生成装置
处理器
可读存储介质
编码器
指令
多模态
系统为您推荐了相关专利信息
贝叶斯模型
电磁
概率生成模型
精度
数据生成模型
定价方法
资产
多源异构数据
集成机器学习
非结构化文本
语音识别方法
电视棒
构建语音识别模型
指令推理
离散余弦变换
非玩家角色
环境感知信息
三维虚拟环境
自然语言
文本