一种基于多模态控制的人体视频生成方法及装置

正文

推荐专利

申请号：CN202510238205

申请日期：2025-02-28

公开号：CN120034707A

公开日期：2025-05-23

类型：发明专利

摘要

本说明书实施例提供了基于多模态控制的人体视频生成方法及装置。该方法包括：获取文本提示信息、音频驱动信号以及目标说话人的参考图像，所述文本提示信息包含用于对所述目标说话人进行动作提示的文本信息，所述音频驱动信号为包含语音内容的音频信息；基于所述文本提示信息和所述音频驱动信号，生成所述目标说话人的运动姿态表示信息，所述运动姿态表示信息用于表示所述目标说话人的运动姿态；基于所述参考图像、所述音频驱动信号和所述运动姿态表示信息，生成所述目标说话人的说话视频，所述说话视频中包含所述目标说话人表达所述语音内容时的身体运动。

技术关键词

驱动信号文本多模态运动特征视频生成方法音频特征表征人体图像序列人体关键点样本分支面部视频生成装置语音融合特征

系统为您推荐了相关专利信息

多模态感知的视觉传达应急信息动态生成方法

融合多模态特征生成参数视觉生成对抗网络节点

一种基于人体动作采集的人形机器人全身控制方法

人体运动数据人体动作采集人形机器人关节采集人体运动平移关节

一种电池热失控预警方法及装置

电池热失控预警方法信号冷却系统噪声声学特征

资产测绘方法及装置

测绘方法指纹特征神经网络模型资产测绘装置

一种基于多模态动态权重融合的火灾态势感知方法及系统

态势感知方法强度多模态火灾现场图像分割

一种基于多模态控制的人体视频生成方法及装置

站点导航

APP 下载