基于时序位置编码的多模态特征融合数字人视频生成方法和装置

正文

推荐专利

申请号：CN202411560132

申请日期：2024-11-04

公开号：CN119484953B

公开日期：2025-10-14

类型：发明专利

摘要

本发明公开了一种基于时序位置编码的多模态特征融合数字人视频生成方法和装置，包括：基于单目视频构建关键点；使用Faceverse模型检测的面部Faceverse系数，拟合并替换SMPLX模型的面部Flame系数，使用Hamer模型检测的Mano手型，拟合并替换SMPLX模型的手部表示，得到优化后的SMPLX模型；基于关键点绘制得到颜色编码表征图像和眼睛注视图像，同时基于优化后的SMPLX模型绘制得到深度图像、语义图像、以及法向图像；在图像生成模型中引入用于增强时序一致性的时序位置编码，同时基于所有图像形成的多模态特征连续生成多帧数字人图像，并添加音频得到数字人视频，在多个领域都有广泛应用前景。

技术关键词

视频生成方法模态特征序列图像生成模型时序编码图像生成器生成数字人面部关键点眼睛语义颜色反向运动学视频帧索引视频生成装置

系统为您推荐了相关专利信息

一种基于自适应小波神经网络的火电机组主蒸汽温度预测方法及相关装置

机组主蒸汽小波神经网络温度预测方法通道注意力机制火电

一种基于LLM的三维数字人表情生成方法及系统

大语言模型表情生成方法表情生成系统文本动画

使用支付卡消费的偏好预测方法、装置、设备、介质和产品

梯度提升决策树训练特征决策树模型支付卡资产交易信息

一种信用风险评分模型

评分卡标尺模块风险预测模型样本

一种电池安全风险等级预警与评估方法

内阻剩余使用寿命长短期记忆网络风险衰减特征

基于时序位置编码的多模态特征融合数字人视频生成方法和装置

站点导航

APP 下载