摘要
本公开提供了一种目标对象的驱动方法和驱动模型的训练方法、装置、设备、介质、程序产品,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习等技术领域,可应用于生成式人工智能和数字人驱动等场景。目标对象的驱动方法的具体实现方案为:基于包括目标对象的源视频帧及目标音频片段,生成与目标音频片段对应的目标对象的目标三维模型序列;基于目标三维模型序列,渲染得到与目标音频片段对应的初始图像序列;基于初始图像包括的唇部图像以及初始图像与源视频帧之间的对应关系,融合唇部图像与源视频帧,得到融合后图像序列;以及基于融合后图像序列,生成驱动后视频片段,驱动后视频片段中目标对象的唇部形状与目标音频片段相适配。
技术关键词
三维模型
视频帧
序列
编码特征
重构
音频特征提取
图像生成网络
对象
子模块
模型训练模块
驱动方法
注意力机制
指令
关系
系统为您推荐了相关专利信息
蛋白质功能预测方法
术语
数据
神经网络模型
序列
供应链管理系统
状态分布图
子模块
大数据
需求预测模型
加权分数傅里叶变换
编码调制器
接收机
发射机
符号