摘要
本公开提供了一种文本生成视频方法、装置、智能体、电子设备及存储介质,涉及自然语言处理、计算机视觉、大语言模型等人工智能技术领域,可应用于基于人工智能的内容生成等场景。具体实现方案为:获取生成目标视频的文本描述信息;获取生成目标视频的控制帧图像及其作用时间;根据视频扩散模型的时域压缩率和作用时间,在视频扩散模型基于文本描述信息生成的第一潜变量序列中,确定出与控制帧图像关联的潜变量片段;在目标视频的生成过程中,通过视频扩散模型基于控制帧图像更新与控制帧图像关联的潜变量片段,并将更新后的潜变量片段扩散到整个第一潜变量序列中,得到第二潜变量序列;对第二潜变量序列进行解码处理,生成目标视频。
技术关键词
变量
图像
生成帧
人机交互模式
文本
序列
策略更新
输入模块
电子设备
大语言模型
人工智能技术
视频装置
计算机程序产品
计算机视觉
解码模块
处理器通信