多模态模型的情感驱动2D超自然数字人视频生成系统

正文

推荐专利

申请号：CN202411734928

申请日期：2024-11-29

公开号：CN119672601A

公开日期：2025-03-21

类型：发明专利

摘要

本发明涉及图像识别加工技术领域，公开了多模态模型的情感驱动2D超自然数字人视频生成系统，包括：语音输入模块，用于接收用户的语音信号后将其转换为数字信号；语音预处理模块，用于对语音信号进行噪声消除和归一化处理；语音情感分析模块，基于语音预处理模块数字信号提取情感特征；多模态生成模块，用于将情感特征映射为数字人手势和数字人口型动作；视频生成模块，用于将手势和口型动作与语音信号同步并生成2D数字人视频。本发明中，通过多模态生成模型将语音情感特征准确地映射为数字人的手势和口型动作，生成与情感类别、情绪强度和语气特征高度匹配的动作，从而在视觉上呈现出情感丰富的表达效果，使用户体验更具真实性。

技术关键词

视频生成系统情感特征双向长短期记忆网络语音情感分析卷积神经网络特征提取多头注意力机制多模态视频生成方法语音输入模块动态时间规整算法手势情感类别维纳滤波器频谱特征生成对抗网络融合卷积神经网络信号矩阵

系统为您推荐了相关专利信息

一种基于小样本数据延拓的典型机电系统性能预测方法

典型机电系统性能预测方法静态特征数字孪生机器学习模型

一种医疗监测型养老机器人

医疗监测型养老机器人面部表情识别语音情感分析高斯混合模型监测单元

基于知识图谱的办电资料审核方法、装置、设备及介质

审核方法图谱资料光学字符识别 PageRank算法

一种基于AI的新能源商用车故障诊断方法及系统

新能源商用车卷积特征提取故障诊断方法故障诊断系统故障诊断模型

基于多模态数据分析的心理辅导系统及数据处理方法

多模态数据分析多模态数据采集保护罩单元信号采集单元定向拾音

多模态模型的情感驱动2D超自然数字人视频生成系统

站点导航

APP 下载