摘要
本发明公开了一种基于多模态大模型的长视觉序列生成方法及装置。该方法包括:获取训练用的多模态剧本数据;渲染器的训练和优化;自回归模型的训练;故事的生成。该装置包括:获取模块,用于得到训练用的多模态剧本数据;渲染器训练优化模块;自回归模型训练模块;生成模块。本发明能同时做到长故事与长视频的生成,不仅在视觉质量和叙事质量上取得了优越的表现,而且有效地将生成内容的持续时间显著延长。
技术关键词
序列生成方法
关键帧
多模态
图片
编码器
序列生成装置
视觉
视频生成模型
计算机设备
文本
模型训练模块
人脸特征提取
数据
可读存储介质
存储计算机程序
计算机程序产品
存储器
系统为您推荐了相关专利信息
监测方法
双线性插值方法
特征提取网络
解码器
输出特征
决策系统
皮肤病变检测
动态定价模型
护肤
图像分类模型
检测解码器
编码器
金字塔池化模块
融合特征
分支
急性放射性皮炎
光学图像采集装置
调制传递函数
基础分类器
风险预测模型
现场视频图像
图像局部特征
数据存储管理
视频帧
分析模块