摘要
本申请提出一种基于通用世界模型的一致性长视频生成方法,包括:S1、接收初始输入的图像和文本描述,将其通过分词器网络进行编码为一组token,并将所述token输入多模态大模型,生成初始的状态变量;S2、利用视频扩散模型以当前状态变量为条件,生成相对应的视频片段,并对所述视频片段进行采样,提取关键帧得到观测变量;S3、将所述观测变量输入多模态大模型,结合当前状态变量,预测当前动力因素,并根据所述动力因素更新状态变量,实现状态变量的动态演化;S4、重复上述步骤S2与S3,迭代生成视频片段,最终生成具有时序一致性和内容丰富性的长视频序列。本申请通过构建通用世界模型,有效解决了长视频生成中的一致性和内容丰富性问题。
技术关键词
多模态
生成视频片段
计算机执行指令
视频生成方法
模态特征
关键帧
变量
状态更新
文本
动力
图像
视频生成装置
协同注意力
序列
可读存储介质
特征提取模块
编码
时序
处理器通信
系统为您推荐了相关专利信息
网络拓扑关系
计算机执行指令
蚁群算法
链路
时延
固体废物堆场
多源监测数据
可见光图像
渗滤液
识别系统