摘要
本公开提供了一种视频生成方法,涉及人工智能技术领域,尤其涉及深度学习、自然语音处理、计算机视觉、大模型技术领域,能够用于智能助手、虚拟助手、智能电商等应用场景。具体实现方案为:提取参考视频中目标对象的局部区域特征和语音特征;根据局部区域特征生成针对目标对象的数字人的基准局部图像;根据语音特征和目标文本,生成与目标文本对应的目标语音;根据目标语音和基准局部图像,生成局部图像序列,其中,局部图像序列表征数字人发出目标语音的唇形变化;以及根据参考视频和局部图像序列,生成数字人的目标视频。本公开还提供了一种视频生成装置、电子设备及存储介质。
技术关键词
语音特征
视频生成方法
对象
文本
视频生成装置
序列
声纹特征
基准
生成场景图像
电子设备
韵律特征
处理器
自然语音
人工智能技术
指令
计算机程序产品