摘要
本公开的实施方式提供了一种虚拟人视频生成方法、装置、计算机程序产品、电子设备。该方法包括:根据原始音频识别对应的文本内容,并确定多组人物身体动作的骨架姿势图;通过大语言模型对文本内容以及骨架姿势图进行处理,输出文本内容对应的分镜规划信息;分镜规划信息包括整体风格、场景描述、人物描述以及每个分镜的分镜属性信息;基于整体风格以及场景描述生成场景动图,并基于整体风格以及人物描述生成人物静态图;根据每个分镜绑定的人物静态图以及分镜属性信息生成每个分镜的人物动作动图,并将场景动图以及多个分镜的人物动作动图进行组合,生成同一场景下的虚拟人视频。本公开实施例的技术方案,能够提高生成虚拟人视频的效率。
技术关键词
视频生成方法
生成场景
风格
姿势控制
大语言模型
计算机程序产品
文本
规划
视频生成装置
序列帧
融合特征
电子设备
图像
身份
音频
身体
处理器