基于增强视频扩散模型的动作视频生成方法

正文

推荐专利

基于增强视频扩散模型的动作视频生成方法

申请号：CN202411055109

申请日期：2024-08-02

公开号：CN119094788A

公开日期：2024-12-06

类型：发明专利

摘要

本发明公开了一种基于增强视频扩散模型的动作视频生成方法，根据实际情况设置动作的参考视频集合，根据实际需要构建文本编码器，变分自编码器和扩散U‑Net模型并分别采用相应的训练样本集进行预训练，基于以上子模型构建增强视频扩散模型并采用若干源视频对增强视频扩散模型进行训练，在训练过程中通过添加噪声将源视频特征转换为噪声，然后利用增强视频扩散模根据参考视频的视觉信息以及文本描述预测噪声，利用噪声的差距计算损失函数更新模型参数；将字幕文本和噪声输入训练好的增强视频扩散模型，即可生成对应的动作视频。本发明可以无需对未经训练的动作进行任何进一步的微调即可根据字幕文本准确生成动作视频。

技术关键词

噪声特征字幕交叉注意力机制视频生成方法文本编码器生成动作动作特征解码器训练样本集采样模块视觉更新模型参数

基于增强视频扩散模型的动作视频生成方法

站点导航

APP 下载