摘要
本说明书实施例提供了基于多模态控制的人体视频生成方法及装置。该方法包括:获取文本提示信息、音频驱动信号以及目标说话人的参考图像,所述文本提示信息包含用于对所述目标说话人进行动作提示的文本信息,所述音频驱动信号为包含语音内容的音频信息;基于所述文本提示信息和所述音频驱动信号,生成所述目标说话人的运动姿态表示信息,所述运动姿态表示信息用于表示所述目标说话人的运动姿态;基于所述参考图像、所述音频驱动信号和所述运动姿态表示信息,生成所述目标说话人的说话视频,所述说话视频中包含所述目标说话人表达所述语音内容时的身体运动。
技术关键词
驱动信号
文本
多模态
运动特征
视频生成方法
音频特征
表征人体
图像
序列
人体关键点
样本
分支
面部
视频生成装置
语音
融合特征
系统为您推荐了相关专利信息
融合多模态特征
生成参数
视觉
生成对抗网络
节点
人体运动数据
人体动作采集
人形机器人关节
采集人体运动
平移关节
电池热失控
预警方法
信号
冷却系统噪声
声学特征