摘要
本发明涉及计算机视觉技术领域,提供一种数字人生成方法、装置、设备及介质,方法包括:获取待生成数字人的外观信息、音频信息、情感信息和姿态信息;将待生成数字人的外观信息、音频信息、情感信息和姿态信息输入至数字人生成模型中,得到数字人生成模型输出的数字人生成结果;其中,数字人生成模型是基于数字人训练样本和数字人训练样本对应的数字人视频标签训练得到的;数字人生成模型用于对输入的待生成数字人的外观信息、音频信息、情感信息和姿态信息分别进行特征提取,并将提取的特征进行特征融合,以基于融合特征生成对应数字人视频。本发明能够为生成的数字人赋予丰富的情感表达和多样化的姿态,使生成的数字人更加协调、自然。
技术关键词
姿态特征
情感特征
音频特征
融合特征
训练特征
生成方法
视频
标签
编码向量
文本
头部特征
非暂态计算机可读存储介质
高维向量空间
生成数字人
语音
计算机视觉技术
前馈神经网络
样本
处理器
系统为您推荐了相关专利信息
多模态MRI图像
数据分类识别
特征提取网络
分类识别方法
分类识别模型
植株三维重建方法
三维重建模型
多视角
融合特征
图像采集设备
序列
诊断方法
定位框架
影像诊断设备
影像诊断系统
医学图像分割方法
注意力
网络架构
重构
多尺度池化
音乐播放界面
情绪特征
音频特征
节奏特征
运动特征