摘要
本发明公开了一种基于时序位置编码的多模态特征融合数字人视频生成方法和装置,包括:基于单目视频构建关键点;使用Faceverse模型检测的面部Faceverse系数,拟合并替换SMPLX模型的面部Flame系数,使用Hamer模型检测的Mano手型,拟合并替换SMPLX模型的手部表示,得到优化后的SMPLX模型;基于关键点绘制得到颜色编码表征图像和眼睛注视图像,同时基于优化后的SMPLX模型绘制得到深度图像、语义图像、以及法向图像;在图像生成模型中引入用于增强时序一致性的时序位置编码,同时基于所有图像形成的多模态特征连续生成多帧数字人图像,并添加音频得到数字人视频,在多个领域都有广泛应用前景。
技术关键词
视频生成方法
模态特征
序列
图像生成模型
时序
编码
图像生成器
生成数字人
面部关键点
眼睛
语义
颜色
反向运动学
视频帧
索引
视频生成装置
系统为您推荐了相关专利信息
机组主蒸汽
小波神经网络
温度预测方法
通道注意力机制
火电
大语言模型
表情生成方法
表情生成系统
文本
动画
梯度提升决策树
训练特征
决策树模型
支付卡
资产交易信息
内阻
剩余使用寿命
长短期记忆网络
风险
衰减特征