基于增强可变形卷积和时空运动补偿的语音驱动数字人构建方法和装置

AITNT
正文
推荐专利
基于增强可变形卷积和时空运动补偿的语音驱动数字人构建方法和装置
申请号:CN202411551675
申请日期:2024-11-01
公开号:CN119418713A
公开日期:2025-02-11
类型:发明专利
摘要
本发明公开了一种基于增强可变形卷积和时空运动补偿的语音驱动数字人构建方法和装置。首先,使用Speech2Lip根据输入音频生成初步的嘴型同步视频。然后,提取生成视频中的嘴型特征和音频的音素特征,形成两个时间序列。接下来,应用DTW(动态时间规整)对音频和嘴型序列进行时间对齐,找到最佳的时间路径,校正嘴型动作,使其与音频发音时序更准确匹配。根据对齐结果,对嘴型动画进行调整,生成校正后的嘴型同步视频,确保嘴型动作与音频的发音高度一致。最后,将优化后的嘴型同步视频与音频合成,生成最终的高质量数字人视频。与现有技术相比,本发明能够优化由语音驱动的生成的数字人视频,提高视频当中嘴型和音频对齐的准确度。
技术关键词
运动补偿 面部关键点检测 序列 短时傅里叶变换 DTW算法 生成语音 索引 音频特征 区域特征提取 视频帧同步 动态时间规整 矩阵 发音 通道
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号