摘要
本发明公开了一种利用2D视频在文本驱动下生成3D人体运动的方法及系统,步骤为:采集视频并预处理得二维关键点序列和文本描述;二维关键点序列经时空特征适配器得潜在时空特征序列,残差向量量化器量化输出三维SMP L参数序列,同时映射潜在时空特征与离散Token序列;对文本预处理提取语义向量,将基础量化层Token序列部分遮掩,结合语义向量经预测器重建预测序列,再经细化器得完整序列;构建总损失、文本到动作损失函数,以训练模块;输入文本描述和基础量化层Token至训练好的模块,输出三维SMPL参数序列并渲染生成三维人体网格及动画。本发明仅需二维关键点和文本描述实现从文本到三维SMPL动作的端到端生成。
技术关键词
语义向量
序列
关键点
视频
细化器
人体
基础
参数
适配器
注意力
网格
文本编码器
模块
投影模型
关节
解码器
运动
动画
时序特征