摘要
本发明公开了一种通过文字驱动的数字人物说话视频生成方法及系统,属于人工智能视频生成技术领域。该方法首先对于数字人物视频数据集所涉到的视频进行视频处理;然后进行文字以及图像特征提取;再进行图像特征重塑并将文字特征利用WaveNet生成音频;接着对生成的多帧图像进行修复;最后将步骤修复后的图像与步骤生成的音频按时间顺序拼接生成数字人物视频并对生成结果评估。该方法具备强大的控制能力、多样的控制类型,无需重新训练基础模型,能有效提升数字人物说话视频的生成效果,使视频中人物动作、表情与语音内容高度契合,显著提高用户体验。
技术关键词
文字特征
视频生成方法
运动特征
人脸
多模态注意力
图像特征提取
情感特征
语义特征
文本编码器
音频特征
对齐模块
随机噪声
面部关键点检测
连续特征
系统为您推荐了相关专利信息
音频特征
注意力机制
视频生成方法
时序
随机噪声
疾病风险预测模型
预测疾病风险
人脸
光电容积脉搏波信号
样本