摘要
本公开提供了一种基于多模态大模型的数字人生成方法,包括:构建数字人基础模型;生成结构化训练集;生成支持多通道交互的问答模型;输出用户问题的语义回答,对语义回答的文本情感倾向进行提取,输出情感强度参数;生成面部肌肉运动轨迹数据,根据面部肌肉运动轨迹数据对数字人基础模型进行实时渲染输出具有情感表达的数字人三维形象。本实施例通过对文本、图像及音频数据进行跨模态对齐,并利用联合训练的方法优化包含视觉、语音及知识模型的多模态大模型,实现了更加自然流畅的多通道交互体验;此外,通过引入情感识别模型和面部交互模型,可以更准确地捕捉并反映语义回答中蕴含的情感倾向,从而输出具有真实情感表达的数字人三维形象。
技术关键词
运动轨迹数据
问答模型
文本情感倾向
生成方法
情感识别模型
三维人体模型
多模态
交互模型
语义
训练集
语音
跨模态
多通道
音色特征
面部动作单元
音频
网格模型