语音驱动3D数字人眼神和头部动作方法、装置及设备

正文

推荐专利

申请号：CN202510349608

申请日期：2025-03-24

公开号：CN120495478A

公开日期：2025-08-15

类型：发明专利

摘要

本申请的实施例提供了一种语音驱动3D数字人眼神和头部动作方法、装置及设备。该方法包括：从输入的语音信号中提取语音嵌入特征；将语音嵌入特征分别输入至预训练的头部运动生成模型和眼球运动生成模型中，以得到头部运动的潜在空间表示和眼球运动的潜在空间表示；使用时序Transformer模型对头部运动和眼球运动的潜在空间表示进行跨模态对齐，生成与语音信号同步的头部姿态参数序列和眼球旋转参数序列；根据头部姿态参数序列、眼球旋转参数序列以及基于语音驱动所生成的面部表情参数序列，生成包含头部动作、眼球运动以及面部表情的3D数字人动画。本申请实施例的技术方案可以仅从语音信号中自动且多样化地生成3D数字人眼动、头部运动及面部表情。

技术关键词

运动生成模型变分自动编码器眼球嵌入特征语音动作方法参数序列面部跨模态生成特征向量动画时序动作装置人脸模型人眼解码器处理器

系统为您推荐了相关专利信息

基于多智能体协同的信息交互方法、装置、设备及介质

多智能体协同信息交互方法工作流应用程序编程接口信息交互系统

一种带语音控制的塔式造雪机

造雪机带语音可调节支撑机构安装盘语音识别器

一种基于多视图对比学习的药物相互作用预测方法

药物相互作用预测语义实体全局结构信息超参数度编码器

一种三维成像的眼部区域处理方法、装置、设备及介质

点云三维模型三维成像关键点眼球

一种基于协作式边界感知对抗学习的跨库语音情感识别方法

情感分类器情感类别样本检测损失语音情感识别方法

语音驱动3D数字人眼神和头部动作方法、装置及设备

站点导航

APP 下载