摘要
本发明公开了一种通过声音中情绪实现视频中人物表情与唇形同步的方法及克隆数字人系统,通过声音中情绪实现视频中人物表情与唇形同步的方法,采集音频信息并提取声音的多维度特征;应用预先训练好的表情与唇形生成模型根据声音的多维度特征生成对应的表情参数和唇形参数;对表情参数和唇形参数进行融合处理,并根据融合后的参数生成连续的动画序列;将连续的动画序列进行渲染,生成带有表情与唇形和声音情绪同步的视频信息。实现高度精准的表情与唇形同步,提升克隆数字人的自然逼真度,拓展克隆数字人的应用范围和价值。
技术关键词
模型训练模块
子模块
数据收集单元
参数
情感特征
视频
特征提取单元
音频
监督学习算法
韵律特征
降噪单元
多维度特征提取
面部
唇形动画
采集单元
控制系统
三维模型
生成对抗网络
深度学习算法
系统为您推荐了相关专利信息
提示方法
预训练模型
数据标签
图像识别方法
前馈神经网络
分类存储系统
视觉特征提取
多模态信息
解析单元
边缘检测算法
人体姿态识别
分类器模型
核极限学习机
特征提取模型
降维特征
山洪预报方法
山洪灾害
集成学习模型
时空卷积神经网络
参数