摘要
本发明提供一种基于扩散Transfomer架构的数字人视频生成系统,该系统的建立方案包括以下内容:搭建多模态条件编码器,其中语音信号经Whisper模型提取音素‑韵律特征;搭建时空DiT主干网络,包括空间注意力层;时间卷积层;自适应归一化层;针对每一层,采用的分层训练策略包括第一阶段:冻结CLIP编码器,在Laion‑5B数据集预训练基础扩散模型;第二阶段:在VoxCeleb2视频数据集微调时空注意力模块;第三阶段:基于RLHF框架对齐人类审美偏好;针对实时推理部分进行优化。本发明采用扩散Transformer架构,降低了计算复杂度;动态调整噪声水平与transformer深度关联,并实现了文本‑语音‑骨骼多模态对齐,数字人视频的生成质量、稳定性、计算效率等均有提升。
技术关键词
视频生成系统
韵律特征
文本编码器
多模态
人体模型
语义向量
运动特征
复杂度
注意力机制
语音
代表
动态
图片
分层
数据
策略
系统为您推荐了相关专利信息
视频帧集合
特征提取模型
分类神经网络
服饰
视角
知识图谱补全方法
三元组
关系
结构编码器
多模态信息
穿戴产品技术
人机交互模块
高精度定位导航
语音交互控制
语音交互系统