摘要
本申请的实施例提供了一种语音驱动3D数字人眼神和头部动作方法、装置及设备。该方法包括:从输入的语音信号中提取语音嵌入特征;将语音嵌入特征分别输入至预训练的头部运动生成模型和眼球运动生成模型中,以得到头部运动的潜在空间表示和眼球运动的潜在空间表示;使用时序Transformer模型对头部运动和眼球运动的潜在空间表示进行跨模态对齐,生成与语音信号同步的头部姿态参数序列和眼球旋转参数序列;根据头部姿态参数序列、眼球旋转参数序列以及基于语音驱动所生成的面部表情参数序列,生成包含头部动作、眼球运动以及面部表情的3D数字人动画。本申请实施例的技术方案可以仅从语音信号中自动且多样化地生成3D数字人眼动、头部运动及面部表情。
技术关键词
运动生成模型
变分自动编码器
眼球
嵌入特征
语音
动作方法
参数
序列
面部
跨模态
生成特征向量
动画
时序
动作装置
人脸模型
人眼
解码器
处理器
系统为您推荐了相关专利信息
多智能体协同
信息交互方法
工作流
应用程序编程接口
信息交互系统
造雪机
带语音
可调节支撑机构
安装盘
语音识别器
药物相互作用预测
语义实体
全局结构信息
超参数
度编码器
情感分类器
情感类别
样本
检测损失
语音情感识别方法