摘要
本发明涉及人工智能领域,提供了一种视频生成方法、装置、设备及介质,视频生成方法应用于视频生成网络架构,视频生成网络架构包括第一编码器、参考子网络、分解子网络、第二编码器、去噪子网络、解码器和运动预测子网络。本发明实施例可通过第一编码器、参考子网络、分解子网络、第二编码器、去噪子网络、解码器和运动预测子网络实现对参考图像和文本提示词进行多阶段的处理,以保证视频主体的时空一致性,增加对真实物理世界的理解能力,降低了完整视频生成的难度,保持视频质量的稳定,减少伪影,进而提高生成效率。
技术关键词
视频生成方法
关键帧
编码器
文本
注意力
网络架构
视频生成装置
解码器
大语言模型
图像
字典
运动
阶段
处理器
拼接单元
解码单元
转换单元
系统为您推荐了相关专利信息
异常事件
选煤厂
多模态特征
跨模态
条件随机场模型
自动生成方法
多任务深度学习模型
文本
生成主题
消除算法
无人机传感器
参数
PageRank算法
编码器
长短期记忆网络
兴趣
点检测方法
序列
非结构化文本
时间间隔特征