摘要
本发明涉及计算机视觉技术领域,公开了一种虚拟数字人驱动方法、装置、设备及存储介质。虚拟数字人驱动方法包括:获取虚拟数字人的第一驱动信号,其中,第一驱动信号包括音频帧序列与图片帧序列;将每一音频帧输入训练好的语音编码器进行语音编码,以及将每一图片帧输入训练好的图片编码器进行图片编码;分别将每一帧语音编码和图片编码拼接成一帧输入向量,并将每一帧输入向量输入训练好的扩散模型进行图片解码,输出对应帧输出图像;将当前帧输出图像替换第一驱动信号中的对应图片帧,得到虚拟数字人的第二驱动信号,并基于第二驱动信号驱动虚拟数字人。本发明提升了图像生成质量,进而使虚拟数字人的显示效果更加逼真。
技术关键词
语音编码器
图片解码器
驱动信号
驱动方法
时序预测模型
音频
感知损失函数
图像解码器
计算机设备
人脸特征提取
人脸检测器
计算机视觉技术
系统为您推荐了相关专利信息
低速电机
高速电机驱动
控制力矩陀螺
状态反馈控制
状态空间方程
主控芯片
刺激装置
主控模块
驱动信号
控制发光模块
除尘总成
慢回弹海绵
传感器数据采集模块
AI算法
抽风除尘
采样模块
故障监测电路
PWM驱动信号
电机控制器
芯片
信息化管理方法
步态特征识别
步态特征向量
人脸特征向量
校园