摘要
本申请涉及图像处理领域及金融领域,公开了一种基于语音驱动的嘴部动作生成方法、装置、设备及介质,所述方法包括根据预训练的2D驱动算法的目标关键点坐标与目标源图像的初始音频特征,生成梅尔频谱特征;通过所述预训练的2D驱动算法提取所述目标源图像的目标脸部特征,并基于所述目标脸部特征与所述梅尔频谱特征,生成嘴部动作图像。通过上述方式,本申请通过使用源图像的初始音频特征生成梅尔频谱特征,更准确地捕捉到语音信号中的关键信息,结合预训练的2D驱动算法和梅尔频谱特征,生成与语音高度同步的嘴部动作图像,提升了用户与虚拟人交互时的沉浸感和真实感,从而驱动嘴部动作的生成,提高了金融场景中生成虚拟人嘴部特征图像的准确性。
技术关键词
驱动算法
动作生成方法
脸部特征
频谱特征
嘴部特征
关键点
音频特征
图像
语音
坐标
输出特征
动作生成装置
动作特征
计算机设备
可读存储介质
存储计算机程序
生成动作
处理器
金融
基础
系统为您推荐了相关专利信息
谱图特征
语音声学特征
特征提取模型
语音特征提取
蒸馏
数字孪生建模方法
设备状态数据
数字孪生模型
注意力
跨模态