摘要
本发明实施例提供了一种视频生成方法、装置、设备、系统及计算机程序产品。方法包括:获取待处理图像,待处理图像包括图像前景及图像背景,图像背景包括能够生成动态效果的预设图像元素;确定图像前景的前景信息、以及待处理图像的静态提示信息;将静态提示信息和待处理图像输入至多模态大语言模型中进行扩展操作,获得动效提示信息,多模态大语言模型为基于多模态样本进行训练得到;基于待处理图像、前景信息及动效提示信息,生成与待处理图像相对应的目标视频。本实施例中,能够快速、自动地基于图像生成目标视频,降低了视频制作操作的成本和技术门槛,并且由于目标视频是结合动效提示信息所生成,从而保证了视频中动效的流畅度和合理度。
技术关键词
大语言模型
视频生成模型
噪声预测
多模态
视频帧特征
噪声强度
图像编码
视频生成方法
计算机程序产品
编码特征
矫正
视频生成系统
偏差
视频生成装置
计算机存储介质
样本
系统为您推荐了相关专利信息
干燥工艺
能效
毛纺织品
动态预测模型
电能消耗量
航迹预测方法
时空注意力机制
聚类
数据分布特征
多尺度特征融合
轮廓系数
样本生成方法
大语言模型
处理器
生成装置
临床决策支持方法
大语言模型
肝癌辅助诊断
蒙特卡洛树搜索
样本