摘要
本公开涉及人工智能技术领域,尤其是提供一种数字人口播视频生成方法、装置、设备、存储介质和程序产品,一种数字人口播视频生成方法,包括获取口播音频以及口播源视频;利用音生表情模型,生成口播音频中各个音频帧的人脸表情系数;利用表情生面部模型,基于口播音频中各个音频帧的人脸表情系数,修改口播源视频中相应各个视频帧的人脸图像的口型,以生成各个人脸图像对应的口播图像,并根据各个口播图像生成口播视频。实施本公开的技术方案,可以降低口播视频对人物身份的敏感度,使得合成的口播视频的口型内容与实际说话口型一致性更高。
技术关键词
人脸表情
人脸姿态
人脸关键点
表情模型
视频生成方法
人体姿态数据
图像
人脸形状
音频编码
音频特征
面部
生成网络模型
视频生成装置
语义特征
人工智能技术
计算机程序产品