基于扩散模型与情感识别的数字人动作生成系统及方法

正文

推荐专利

申请号：CN202510815786

申请日期：2025-06-18

公开号：CN121033231A

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及图像识别技术领域，尤其涉及一种基于扩散模型与情感识别的数字人动作生成系统及方法。该方法包括以下步骤：同步采集用户语音流及面部视频流，分别进行短时傅里叶变换与面部关键点检测，得到语音梅尔频谱图序列及关键点位移向量序列；对语音梅尔频谱图序列及关键点位移向量序列进行多模态融合处理，生成情感特征向量；获取当前帧的数字人骨骼关节旋转状态，并对情感特征向量进行情感适配映射，得到条件潜变量。本发明通过融合扩散模型、多模态情感识别及生理约束机制，结合高效逆解和并行渲染技术，实现了数字人动作的情感驱动、高真实性和低延迟实时生成与稳定交互。

技术关键词

动作生成方法关节旋转角面部关键点检测短时傅里叶变换序列信息熵矩阵生成系统语音视频流显示终端多模态情感识别输入结构误差向量概率分布建模人机交互组件

系统为您推荐了相关专利信息

战术动作规范度AI矫正系统及其方法

红外热成像仪骨骼模型立体视觉多模态语音提示单元

基于多模态交互的酒店智能语音对话方法

情感特征智能语音对话多模态交互面部关键点定位文本

一种基于电磁频谱监测的无线电干扰识别方法

电磁频谱监测干扰识别方法干扰信号特征数据频谱特征

一种微生物-肠-关节轴多器官芯片及其制备方法

中间层微通道模块打孔位置多孔膜关节

关节组件及手术机器人

关节组件传动轴锥齿轮关节主体驱动单元

基于扩散模型与情感识别的数字人动作生成系统及方法

站点导航

APP 下载