一种基于多模态大模型的数字人视频生成方法

正文

推荐专利

申请号：CN202510546751

申请日期：2025-04-28

公开号：CN120472059A

公开日期：2025-08-12

类型：发明专利

摘要

本发明属于虚拟人物生成技术领域，具体涉及一种基于多模态大模型的数字人视频生成方法，所述视频生成方法包括以下步骤：步骤1.多模态数据体系构建；步骤2.多模态大模型训练与适配；步骤3.数字人三维模型构建；步骤4.语义解析与模态映射；步骤5.时序化动作与口型生成；步骤6.虚拟场景搭建与渲染；步骤7.音视频同步渲染与合成；步骤8.质量优化与缺陷修复；步骤9.用户交互与迭代优化。该发明通过技术创新与工程化落地，解决了数字人视频生成中的核心痛点，为虚拟主播、智能客服、企业培训等场景提供了高效、逼真、可定制的内容生产能力，推动AI数字人技术从实验走向大规模商业应用。

技术关键词

视频生成方法多模态虚拟场景搭建语义面部音频生成上下文感知音视频人脸模型三维模型动作捕捉数据语音特征参数文本情感分析光照鲁棒性人体动力学交叉注意力机制视频流

系统为您推荐了相关专利信息

一种基于多模态特征融合的通用场景检索分析方法及系统

多模态特征融合检索分析系统检索分析方法视频分析视觉问答模型

一种基于自然语言描述的遥感图像检索方法、设备及介质

检索句子遥感图像检索方法图像检索模型预训练语言模型图像视觉特征向量

三维模型单体化和语义化分割方法、装置、设备和介质

分割方法三维模型图像贴图语义

一种基于人工智能的工业图像变化异常检测方法及系统

异常检测方法二维快速傅里叶变换重建误差双线性插值工业

一种用于人机交互体验感优化的智能反馈调控方法

人机交互体验调控方法信号车辆行驶信息脑电波信息

一种基于多模态大模型的数字人视频生成方法

站点导航

APP 下载