一种语音驱动的高效果的数字人口型合成算法

正文

推荐专利

申请号：CN202510191308

申请日期：2025-02-20

公开号：CN120034700A

公开日期：2025-05-23

类型：发明专利

摘要

本发明涉及一种语音驱动的高效果的数字人口型合成算法，通过引入lip‑reading expert、重新设计的lip‑sync expert、创新的参考帧选择策略、精心设计的双向特征融合模块和训练损失函数等技巧来提高数字人口型合成的效果。并且具备可控张嘴幅度和多语言支持的功能。

技术关键词

音频特征音频编码器生成对抗网络图像编码器语音图像解码器算法注意力表达式多模态信息融合短视频人脸关键点画面代表模块人脸图片

系统为您推荐了相关专利信息

语音识别方法陀螺仪 Sigmoid函数注意力融合特征

情感分析模型偏好特征语音生成模型可读存储介质电子设备

文本编码器预测特征查询特征多模态生成图像特征

景区推荐方法项目大数据语音特征平台

情绪特征抑郁数据深度学习模型心理健康状态