一种基于扩散Transfomer架构的数字人视频生成系统

正文

推荐专利

申请号：CN202510632843

申请日期：2025-05-16

公开号：CN120499471A

公开日期：2025-08-15

类型：发明专利

摘要

本发明提供一种基于扩散Transfomer架构的数字人视频生成系统，该系统的建立方案包括以下内容：搭建多模态条件编码器，其中语音信号经Whisper模型提取音素‑韵律特征；搭建时空DiT主干网络，包括空间注意力层；时间卷积层；自适应归一化层；针对每一层，采用的分层训练策略包括第一阶段：冻结CLIP编码器，在Laion‑5B数据集预训练基础扩散模型；第二阶段：在VoxCeleb2视频数据集微调时空注意力模块；第三阶段：基于RLHF框架对齐人类审美偏好；针对实时推理部分进行优化。本发明采用扩散Transformer架构，降低了计算复杂度；动态调整噪声水平与transformer深度关联，并实现了文本‑语音‑骨骼多模态对齐，数字人视频的生成质量、稳定性、计算效率等均有提升。

技术关键词

视频生成系统韵律特征文本编码器多模态人体模型语义向量运动特征复杂度注意力机制语音代表动态图片分层数据策略

系统为您推荐了相关专利信息

应用于服饰专场直播视频智能切片的视频关键帧抽取方法、装置

视频帧集合特征提取模型分类神经网络服饰视角

多模态信息与门控注意力协同驱动的知识图谱补全方法

知识图谱补全方法三元组关系结构编码器多模态信息

多视角多模态自动驾驶数据集的构建方法及装置

多模态传感器数据场景语义分割信息

一种视力障碍者智能环境感知反馈的穿戴产品技术方案

穿戴产品技术人机交互模块高精度定位导航语音交互控制语音交互系统

一种基于人工智能的新媒体多模态内容生产的方法及系统

多模态语音指令识别媒体信号模块

一种基于扩散Transfomer架构的数字人视频生成系统

站点导航

APP 下载