基于增强视频扩散模型的动作视频生成方法

AITNT
正文
推荐专利
基于增强视频扩散模型的动作视频生成方法
申请号:CN202411055109
申请日期:2024-08-02
公开号:CN119094788A
公开日期:2024-12-06
类型:发明专利
摘要
本发明公开了一种基于增强视频扩散模型的动作视频生成方法,根据实际情况设置动作的参考视频集合,根据实际需要构建文本编码器,变分自编码器和扩散U‑Net模型并分别采用相应的训练样本集进行预训练,基于以上子模型构建增强视频扩散模型并采用若干源视频对增强视频扩散模型进行训练,在训练过程中通过添加噪声将源视频特征转换为噪声,然后利用增强视频扩散模根据参考视频的视觉信息以及文本描述预测噪声,利用噪声的差距计算损失函数更新模型参数;将字幕文本和噪声输入训练好的增强视频扩散模型,即可生成对应的动作视频。本发明可以无需对未经训练的动作进行任何进一步的微调即可根据字幕文本准确生成动作视频。
技术关键词
噪声特征 字幕 交叉注意力机制 视频生成方法 文本编码器 生成动作 动作特征 解码器 训练样本集 采样模块 视觉 更新模型参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号