一种多模态的数字人生成方法

正文

推荐专利

一种多模态的数字人生成方法

申请号：CN202510617627

申请日期：2025-05-14

公开号：CN120526008B

公开日期：2025-12-09

类型：发明专利

摘要

本发明属于图像领域、语音领域和数字人技术领域，尤其涉及一种基于多模态的数字人生成方法。该方法先获取相同文本下不同形象人的有声视频，分离音视频并提取面部特征构建数据集；接着搭建并训练数字人形象克隆模型和音色克隆模型，分别实现从音频到面部特征、面部特征到无声视频的映射以及音色克隆；最后整合两个模型，借助大语言模型驱动实现数字人问答交流。与传统单一模态生成技术相比，本发明通过多模态数据融合，解决了虚拟人外观与音色不一致、情感表达不精准的问题，提升了数字人的真实感与自然度，增强了其在虚拟主播、智能客服等场景的表现力，推动了数字人技术的发展。

技术关键词

面部特征生成方法音频编解码文本编码器视频音频解码器大语言模型多模态数据融合音色特征模块智能客服生成技术训练集策略

系统为您推荐了相关专利信息

一种双阶段课堂教师教学行为检测方法、设备及介质

教师位置检测教学频率阶段视频

基于改进StrongSORT算法的厢式电梯内乘员跟踪方法

厢式电梯跟踪方法乘员监控视频流运动补偿

运动信息处理方法、装置、终端、电子设备以及存储介质

运动信息处理方法语义角色信息节点文本生成有向无环图

下行数据处理方法与装置、系统、设备、存储介质与产品

互联网协议多媒体系统下行数据处理方法计算机可读指令非瞬时性计算机可读存储介质数据处理装置

一种基于强化学习的多语言环境翻译语境优化方法

上下文语境信息路由器调度算法信号生成单元策略更新

一种多模态的数字人生成方法

站点导航

APP 下载