摘要
本发明涉及图像识别技术领域,尤其涉及一种基于扩散模型与情感识别的数字人动作生成系统及方法。该方法包括以下步骤:同步采集用户语音流及面部视频流,分别进行短时傅里叶变换与面部关键点检测,得到语音梅尔频谱图序列及关键点位移向量序列;对语音梅尔频谱图序列及关键点位移向量序列进行多模态融合处理,生成情感特征向量;获取当前帧的数字人骨骼关节旋转状态,并对情感特征向量进行情感适配映射,得到条件潜变量。本发明通过融合扩散模型、多模态情感识别及生理约束机制,结合高效逆解和并行渲染技术,实现了数字人动作的情感驱动、高真实性和低延迟实时生成与稳定交互。
技术关键词
动作生成方法
关节
旋转角
面部关键点检测
短时傅里叶变换
序列
信息熵
矩阵
生成系统
语音
视频流
显示终端
多模态情感识别
输入结构
误差向量
概率分布建模
人机交互组件
系统为您推荐了相关专利信息
红外热成像仪
骨骼模型
立体视觉
多模态
语音提示单元
情感特征
智能语音对话
多模态交互
面部关键点定位
文本
电磁频谱监测
干扰识别方法
干扰信号特征
数据
频谱特征