一种基于多模态大模型的数字人构造方法及系统

正文

推荐专利

申请号：CN202410820996

申请日期：2024-06-24

公开号：CN118627519B

公开日期：2024-12-13

类型：发明专利

摘要

本发明提供了一种基于多模态大模型的数字人构造方法和系统，属于虚拟人物生成技术领域。方法先采集第一历史数据并进行预处理，基于预处理后的第一历史数据分别进行建模训练，得到多模态大模型、数字人头部模型和数字人躯干模型。然后获取用户输入的问题，利用多模态大模型对用户输入的问题进行语义识别和理解，生成对应的答复文本并将其转换为答复语音；将答复语音分别输入头部模型和躯干模型，驱动生成对应的数字人头部视频和数字人躯干视频，再将数字人头部视频和数字人躯干视频进行视频拼接和图像高清化处理，得到数字人模型。本发明能够高效完成数字人的构造过程，可以快速增加数字人的数量，满足各种应用场景的需求。

技术关键词

躯干模型头部模型视频多模态文本语音识别模型图文头部特征音频特征语音编码器关键点图像编码语义向量图像特征数据肩膀

系统为您推荐了相关专利信息

一种面向医学文本的智能疾病诊断因果图谱构建方法及系统

图谱构建方法医学文本实体识别模型联合损失函数

一种基于跨模态特征解耦与知识蒸馏的多媒体推荐方法

多媒体推荐方法跨模态文本蒸馏网络

一种结合CNN和解码器的卫星视频单目标跟踪方法

时空融合特征视频帧特征提取网络解码器跟踪方法

一种采用多元储能的微电网并网协调控制方法及系统

储能设备协调控制方法虚拟储能技术动态位置编码充放电策略

多模态大模型的训练方法、文档理解方法以及设备

多模态样本图像文本大语言模型

一种基于多模态大模型的数字人构造方法及系统

站点导航

APP 下载