基于语音驱动的嘴部动作生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于语音驱动的嘴部动作生成方法、装置、设备及介质
申请号:CN202410978688
申请日期:2024-07-19
公开号:CN118864635A
公开日期:2024-10-29
类型:发明专利
摘要
本申请涉及图像处理领域及金融领域,公开了一种基于语音驱动的嘴部动作生成方法、装置、设备及介质,所述方法包括根据预训练的2D驱动算法的目标关键点坐标与目标源图像的初始音频特征,生成梅尔频谱特征;通过所述预训练的2D驱动算法提取所述目标源图像的目标脸部特征,并基于所述目标脸部特征与所述梅尔频谱特征,生成嘴部动作图像。通过上述方式,本申请通过使用源图像的初始音频特征生成梅尔频谱特征,更准确地捕捉到语音信号中的关键信息,结合预训练的2D驱动算法和梅尔频谱特征,生成与语音高度同步的嘴部动作图像,提升了用户与虚拟人交互时的沉浸感和真实感,从而驱动嘴部动作的生成,提高了金融场景中生成虚拟人嘴部特征图像的准确性。
技术关键词
驱动算法 动作生成方法 脸部特征 频谱特征 嘴部特征 关键点 音频特征 图像 语音 坐标 输出特征 动作生成装置 动作特征 计算机设备 可读存储介质 存储计算机程序 生成动作 处理器 金融 基础
系统为您推荐了相关专利信息
1
一种基于对比学习的儿童语音表达错误识别与纠正方法
语音 纠正方法 样本 错误检测 儿童
2
一种基于多模态融合的视频内容文本化方法及系统
文本 关键帧 字幕 语言模型得分 视频
3
一种基于蒸馏的持续自监督多类型语音声学特征表示方法
谱图特征 语音声学特征 特征提取模型 语音特征提取 蒸馏
4
一种基于生成式AI技术的园区数字孪生建模方法
数字孪生建模方法 设备状态数据 数字孪生模型 注意力 跨模态
5
语音指令的流式识别方法、装置、介质及设备
语音活动检测 音频 自然语言 识别方法 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号