一种基于多模态控制的人体视频生成方法及装置

AITNT
正文
推荐专利
一种基于多模态控制的人体视频生成方法及装置
申请号:CN202510238205
申请日期:2025-02-28
公开号:CN120034707A
公开日期:2025-05-23
类型:发明专利
摘要
本说明书实施例提供了基于多模态控制的人体视频生成方法及装置。该方法包括:获取文本提示信息、音频驱动信号以及目标说话人的参考图像,所述文本提示信息包含用于对所述目标说话人进行动作提示的文本信息,所述音频驱动信号为包含语音内容的音频信息;基于所述文本提示信息和所述音频驱动信号,生成所述目标说话人的运动姿态表示信息,所述运动姿态表示信息用于表示所述目标说话人的运动姿态;基于所述参考图像、所述音频驱动信号和所述运动姿态表示信息,生成所述目标说话人的说话视频,所述说话视频中包含所述目标说话人表达所述语音内容时的身体运动。
技术关键词
驱动信号 文本 多模态 运动特征 视频生成方法 音频特征 表征人体 图像 序列 人体关键点 样本 分支 面部 视频生成装置 语音 融合特征
系统为您推荐了相关专利信息
1
多模态感知的视觉传达应急信息动态生成方法
融合多模态特征 生成参数 视觉 生成对抗网络 节点
2
一种基于人体动作采集的人形机器人全身控制方法
人体运动数据 人体动作采集 人形机器人关节 采集人体运动 平移关节
3
一种电池热失控预警方法及装置
电池热失控 预警方法 信号 冷却系统噪声 声学特征
4
资产测绘方法及装置
测绘方法 指纹特征 神经网络模型 资产 测绘装置
5
一种基于多模态动态权重融合的火灾态势感知方法及系统
态势感知方法 强度 多模态 火灾现场 图像分割
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号