基于语音驱动的嘴部动作生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202410978688

申请日期：2024-07-19

公开号：CN118864635A

公开日期：2024-10-29

类型：发明专利

摘要

本申请涉及图像处理领域及金融领域，公开了一种基于语音驱动的嘴部动作生成方法、装置、设备及介质，所述方法包括根据预训练的2D驱动算法的目标关键点坐标与目标源图像的初始音频特征，生成梅尔频谱特征；通过所述预训练的2D驱动算法提取所述目标源图像的目标脸部特征，并基于所述目标脸部特征与所述梅尔频谱特征，生成嘴部动作图像。通过上述方式，本申请通过使用源图像的初始音频特征生成梅尔频谱特征，更准确地捕捉到语音信号中的关键信息，结合预训练的2D驱动算法和梅尔频谱特征，生成与语音高度同步的嘴部动作图像，提升了用户与虚拟人交互时的沉浸感和真实感，从而驱动嘴部动作的生成，提高了金融场景中生成虚拟人嘴部特征图像的准确性。

技术关键词

驱动算法动作生成方法脸部特征频谱特征嘴部特征关键点音频特征图像语音坐标输出特征动作生成装置动作特征计算机设备可读存储介质存储计算机程序生成动作处理器金融基础

系统为您推荐了相关专利信息

一种基于对比学习的儿童语音表达错误识别与纠正方法

语音纠正方法样本错误检测儿童

一种基于多模态融合的视频内容文本化方法及系统

文本关键帧字幕语言模型得分视频

一种基于蒸馏的持续自监督多类型语音声学特征表示方法

谱图特征语音声学特征特征提取模型语音特征提取蒸馏

一种基于生成式AI技术的园区数字孪生建模方法

数字孪生建模方法设备状态数据数字孪生模型注意力跨模态

语音指令的流式识别方法、装置、介质及设备

语音活动检测音频自然语言识别方法语义

基于语音驱动的嘴部动作生成方法、装置、设备及介质

站点导航

APP 下载