一种基于扩散Transfomer架构的数字人视频生成系统

AITNT
正文
推荐专利
一种基于扩散Transfomer架构的数字人视频生成系统
申请号:CN202510632843
申请日期:2025-05-16
公开号:CN120499471A
公开日期:2025-08-15
类型:发明专利
摘要
本发明提供一种基于扩散Transfomer架构的数字人视频生成系统,该系统的建立方案包括以下内容:搭建多模态条件编码器,其中语音信号经Whisper模型提取音素‑韵律特征;搭建时空DiT主干网络,包括空间注意力层;时间卷积层;自适应归一化层;针对每一层,采用的分层训练策略包括第一阶段:冻结CLIP编码器,在Laion‑5B数据集预训练基础扩散模型;第二阶段:在VoxCeleb2视频数据集微调时空注意力模块;第三阶段:基于RLHF框架对齐人类审美偏好;针对实时推理部分进行优化。本发明采用扩散Transformer架构,降低了计算复杂度;动态调整噪声水平与transformer深度关联,并实现了文本‑语音‑骨骼多模态对齐,数字人视频的生成质量、稳定性、计算效率等均有提升。
技术关键词
视频生成系统 韵律特征 文本编码器 多模态 人体模型 语义向量 运动特征 复杂度 注意力机制 语音 代表 动态 图片 分层 数据 策略
系统为您推荐了相关专利信息
1
应用于服饰专场直播视频智能切片的视频关键帧抽取方法、装置
视频帧集合 特征提取模型 分类神经网络 服饰 视角
2
多模态信息与门控注意力协同驱动的知识图谱补全方法
知识图谱补全方法 三元组 关系 结构编码器 多模态信息
3
多视角多模态自动驾驶数据集的构建方法及装置
多模态 传感器 数据 场景 语义分割信息
4
一种视力障碍者智能环境感知反馈的穿戴产品技术方案
穿戴产品技术 人机交互模块 高精度定位导航 语音交互控制 语音交互系统
5
一种基于人工智能的新媒体多模态内容生产的方法及系统
多模态 语音指令识别 媒体 信号 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号