摘要
本发明公开了一种基于增强可变形卷积和时空运动补偿的语音驱动数字人构建方法和装置。首先,使用Speech2Lip根据输入音频生成初步的嘴型同步视频。然后,提取生成视频中的嘴型特征和音频的音素特征,形成两个时间序列。接下来,应用DTW(动态时间规整)对音频和嘴型序列进行时间对齐,找到最佳的时间路径,校正嘴型动作,使其与音频发音时序更准确匹配。根据对齐结果,对嘴型动画进行调整,生成校正后的嘴型同步视频,确保嘴型动作与音频的发音高度一致。最后,将优化后的嘴型同步视频与音频合成,生成最终的高质量数字人视频。与现有技术相比,本发明能够优化由语音驱动的生成的数字人视频,提高视频当中嘴型和音频对齐的准确度。
技术关键词
运动补偿
面部关键点检测
序列
短时傅里叶变换
DTW算法
生成语音
索引
音频特征
区域特征提取
视频帧同步
动态时间规整
矩阵
发音
通道