摘要
本发明提供了一种基于多模态大模型的数字人构造方法和系统,属于虚拟人物生成技术领域。方法先采集第一历史数据并进行预处理,基于预处理后的第一历史数据分别进行建模训练,得到多模态大模型、数字人头部模型和数字人躯干模型。然后获取用户输入的问题,利用多模态大模型对用户输入的问题进行语义识别和理解,生成对应的答复文本并将其转换为答复语音;将答复语音分别输入头部模型和躯干模型,驱动生成对应的数字人头部视频和数字人躯干视频,再将数字人头部视频和数字人躯干视频进行视频拼接和图像高清化处理,得到数字人模型。本发明能够高效完成数字人的构造过程,可以快速增加数字人的数量,满足各种应用场景的需求。
技术关键词
躯干模型
头部模型
视频
多模态
文本
语音识别模型
图文
头部特征
音频特征
语音编码器
关键点
图像编码
语义向量
图像特征数据
肩膀
系统为您推荐了相关专利信息
图谱构建方法
医学
文本
实体识别模型
联合损失函数
时空融合特征
视频帧
特征提取网络
解码器
跟踪方法
储能设备
协调控制方法
虚拟储能技术
动态位置编码
充放电策略