摘要
本发明涉及图像识别加工技术领域,公开了多模态模型的情感驱动2D超自然数字人视频生成系统,包括:语音输入模块,用于接收用户的语音信号后将其转换为数字信号;语音预处理模块,用于对语音信号进行噪声消除和归一化处理;语音情感分析模块,基于语音预处理模块数字信号提取情感特征;多模态生成模块,用于将情感特征映射为数字人手势和数字人口型动作;视频生成模块,用于将手势和口型动作与语音信号同步并生成2D数字人视频。本发明中,通过多模态生成模型将语音情感特征准确地映射为数字人的手势和口型动作,生成与情感类别、情绪强度和语气特征高度匹配的动作,从而在视觉上呈现出情感丰富的表达效果,使用户体验更具真实性。
技术关键词
视频生成系统
情感特征
双向长短期记忆网络
语音情感分析
卷积神经网络特征提取
多头注意力机制
多模态
视频生成方法
语音输入模块
动态时间规整算法
手势
情感类别
维纳滤波器
频谱特征
生成对抗网络
融合卷积神经网络
信号
矩阵
系统为您推荐了相关专利信息
典型机电系统
性能预测方法
静态特征
数字孪生
机器学习模型
医疗监测型养老机器人
面部表情识别
语音情感分析
高斯混合模型
监测单元
审核方法
图谱
资料
光学字符识别
PageRank算法
新能源商用车
卷积特征提取
故障诊断方法
故障诊断系统
故障诊断模型
多模态数据分析
多模态数据采集
保护罩单元
信号采集单元
定向拾音