基于增强可变形卷积和时空运动补偿的语音驱动数字人构建方法和装置

正文

推荐专利

申请号：CN202411551675

申请日期：2024-11-01

公开号：CN119418713A

公开日期：2025-02-11

类型：发明专利

摘要

本发明公开了一种基于增强可变形卷积和时空运动补偿的语音驱动数字人构建方法和装置。首先，使用Speech2Lip根据输入音频生成初步的嘴型同步视频。然后，提取生成视频中的嘴型特征和音频的音素特征，形成两个时间序列。接下来，应用DTW（动态时间规整）对音频和嘴型序列进行时间对齐，找到最佳的时间路径，校正嘴型动作，使其与音频发音时序更准确匹配。根据对齐结果，对嘴型动画进行调整，生成校正后的嘴型同步视频，确保嘴型动作与音频的发音高度一致。最后，将优化后的嘴型同步视频与音频合成，生成最终的高质量数字人视频。与现有技术相比，本发明能够优化由语音驱动的生成的数字人视频，提高视频当中嘴型和音频对齐的准确度。

技术关键词

运动补偿面部关键点检测序列短时傅里叶变换 DTW算法生成语音索引音频特征区域特征提取视频帧同步动态时间规整矩阵发音通道

基于增强可变形卷积和时空运动补偿的语音驱动数字人构建方法和装置

站点导航

APP 下载