一种基于通用世界模型的一致性长视频生成方法

正文

推荐专利

申请号：CN202510090360

申请日期：2025-01-21

公开号：CN120075547A

公开日期：2025-05-30

类型：发明专利

摘要

本申请提出一种基于通用世界模型的一致性长视频生成方法，包括：S1、接收初始输入的图像和文本描述，将其通过分词器网络进行编码为一组token，并将所述token输入多模态大模型，生成初始的状态变量；S2、利用视频扩散模型以当前状态变量为条件，生成相对应的视频片段，并对所述视频片段进行采样，提取关键帧得到观测变量；S3、将所述观测变量输入多模态大模型，结合当前状态变量，预测当前动力因素，并根据所述动力因素更新状态变量，实现状态变量的动态演化；S4、重复上述步骤S2与S3，迭代生成视频片段，最终生成具有时序一致性和内容丰富性的长视频序列。本申请通过构建通用世界模型，有效解决了长视频生成中的一致性和内容丰富性问题。

技术关键词

多模态生成视频片段计算机执行指令视频生成方法模态特征关键帧变量状态更新文本动力图像视频生成装置协同注意力序列可读存储介质特征提取模块编码时序处理器通信

系统为您推荐了相关专利信息

交通状态确定方法、装置、设备及存储介质

交通因子加速度多模态点云

业务流量的处理方法、装置、设备及存储介质

网络拓扑关系计算机执行指令蚁群算法链路时延

基于多模态数据库的索引生成方法及查询方法

多模态数据库索引生成方法邻居查询方法关系

一种基于AI技术的固体废物堆场远程巡航及隐患识别系统

固体废物堆场多源监测数据可见光图像渗滤液识别系统

基于粒子群优化的全自动粗精磨一体机磨削参数优化方法

磨削参数优化方法粒子图谱编码向量数据

一种基于通用世界模型的一致性长视频生成方法

站点导航

APP 下载