摘要
本发明公开了一种基于增强视频扩散模型的动作视频生成方法,根据实际情况设置动作的参考视频集合,根据实际需要构建文本编码器,变分自编码器和扩散U‑Net模型并分别采用相应的训练样本集进行预训练,基于以上子模型构建增强视频扩散模型并采用若干源视频对增强视频扩散模型进行训练,在训练过程中通过添加噪声将源视频特征转换为噪声,然后利用增强视频扩散模根据参考视频的视觉信息以及文本描述预测噪声,利用噪声的差距计算损失函数更新模型参数;将字幕文本和噪声输入训练好的增强视频扩散模型,即可生成对应的动作视频。本发明可以无需对未经训练的动作进行任何进一步的微调即可根据字幕文本准确生成动作视频。
技术关键词
噪声特征
字幕
交叉注意力机制
视频生成方法
文本编码器
生成动作
动作特征
解码器
训练样本集
采样模块
视觉
更新模型参数