摘要
本申请公开了一种文生视频生成方法、产品、设备及存储介质,涉及人工智能技术领域,包括:将文本描述和噪声向量输入至按照预设蒸馏策略训练的第一文生视频模型,以生成与文本描述匹配的视频和相应的视频隐向量;预设蒸馏策略为利用学生模型和基于注意力机制的扩散模型依次对历史高分辨率视频进行去噪,并基于去噪结果对应的损失对预设学生模型的模型参数进行更新;对视频隐向量进行上采样,并对得到的采样后向量和噪声向量进行拼接;将拼接后向量输入至基于多路状态空间模型的第二文生视频模型,以生成目标文生视频。本申请在基于注意力机制的基础上结合多路状态空间模型,通过多次推理,可提高文生视频的分辨率以及文生视频的生成效率。
技术关键词
视频生成方法
状态空间模型
输出特征
文本
多层感知器
学生
注意力机制
蒸馏
噪声
处理单元
编码
上采样
视频解码器
超参数
可读存储介质
存储计算机程序
梯度下降法
人工智能技术
教师
系统为您推荐了相关专利信息
GCN模型
图谱
深度前馈神经网络
服务端
深度学习网络模型
局部视觉语义
多模态
语义特征提取
全景图
注意力
电力营销稽查
依存句法分析
文本
依存句法树
生成方法
信息查询系统
网络安全监测
关联规则分析
构建预测模型
数据分析模块