摘要
本申请公开一种模型生成方法包括:构建初始骨干网络,初始骨干网络包括图像编码器、文本编码器和扩散模型,扩散模型分别连接在图像编码器和文本编码器的后面,扩散模型的去噪器中的每个网络层后面均连接了一个目标运动模块;获取训练集,训练集包括多组样本数据,每组样本数据包括样本视频、样本描述文字和引导信息,引导信息至少包括指示信息,指示信息用于指示样本视频中的作为锚定帧的视频帧;根据训练集中的每组样本数据对初始骨干网络进行多次迭代训练直至初始骨干网络收敛得到目标模型;在训练过程中控制每组样本数据的样本视频中的锚定帧的带噪数据跳过每个目标运动模块的处理;将目标模型中包含目标运动模块的去噪器确定为文生视频模型。
技术关键词
运动模块
模型生成方法
图像编码器
样本
视频生成方法
文本编码器
网络
数据
随机噪声
视频帧
扩散算法
训练集
注意力机制
电子设备
处理器
人脸