摘要
本申请公开了一种视频生成方法、模型训练方法、装置及计算机程序产品,视频生成方法包括:获取用于生成视频的目标音频以及参考图片,参考图片中包括发声对象;根据目标音频对应的一个或多个音频片段的片段特征以及参考图像,确定音频片段对应的各待生成视频帧的全局视觉特征;根据目标音频各音频帧的发音特征以及参考图片中发声对象的唇部特征,确定音频帧对应的待生成视频帧中发声对象的唇部特征;根据待生成视频帧对应的唇部特征和全局视觉特征,生成各视频帧。通过本申请提供的方案既能够使得所生成的视频中人物的表达更加生动自然,也能够很准确地使得唇部动作和音频同步,提高用户的视觉体验。
技术关键词
全局视觉特征
唇部特征
音频
视频生成方法
发声
发音特征
视频帧
视频生成模型
对象
图片
样本
计算机程序产品
模型训练方法
图像
脸部特征
视频生成装置
关键点
基础
系统为您推荐了相关专利信息
音频采集模块
生理
情绪识别模型
情绪特征
光学检测器
节目特征
偏好特征
生成电子节目指南
兴趣
文本分析模型
功能更新系统
MQTT协议
动态
车载传感器
音频系统控制