一种基于多模态大模型的数字人生成方法

正文

推荐专利

一种基于多模态大模型的数字人生成方法

申请号：CN202510532753

申请日期：2025-04-25

公开号：CN120543710A

公开日期：2025-08-26

类型：发明专利

摘要

本公开提供了一种基于多模态大模型的数字人生成方法，包括：构建数字人基础模型；生成结构化训练集；生成支持多通道交互的问答模型；输出用户问题的语义回答，对语义回答的文本情感倾向进行提取，输出情感强度参数；生成面部肌肉运动轨迹数据，根据面部肌肉运动轨迹数据对数字人基础模型进行实时渲染输出具有情感表达的数字人三维形象。本实施例通过对文本、图像及音频数据进行跨模态对齐，并利用联合训练的方法优化包含视觉、语音及知识模型的多模态大模型，实现了更加自然流畅的多通道交互体验；此外，通过引入情感识别模型和面部交互模型，可以更准确地捕捉并反映语义回答中蕴含的情感倾向，从而输出具有真实情感表达的数字人三维形象。

技术关键词

运动轨迹数据问答模型文本情感倾向生成方法情感识别模型三维人体模型多模态交互模型语义训练集语音跨模态多通道音色特征面部动作单元音频网格模型

一种基于多模态大模型的数字人生成方法

站点导航

APP 下载