摘要
本申请实施例提供一种基于AI语音克隆与口型同步的视频生成方法及系统,所述方法可以在获取输入视频和输入文本后,先使用语音合成模型将输入视频的声纹特征与输入文本融合,以生成自然语音;再使用唇形位移模型解析输入视频的唇部关键点,以及按照唇部关键点,根据自然语音匹配唇形变化数据;再根据输入视频和唇形变化数据生成输出视频。所述方法可以将语音合成模型的音素时长预测与唇形位移模型通过时序卷积耦合,使输出视频的口型与语音内容匹配,并采用通过重绘唇部区域实现轻量化视频修复,还支持动态响应用户实时修改的输入文本,提高响应效率。
技术关键词
自然语音
声纹特征
韵律特征
数据生成输出
关键点
语音识别文本
视频生成方法
AI语音
图像分割网络
韵律模式
关键词
曲线
特征提取模块
视频生成系统
执行语音识别
注意力机制
系统为您推荐了相关专利信息
人体关键点
人体形状参数
关键点检测方法
序列
视频
特征描述符
关键点
点云配准方法
子模块
颜色误差
油气井勘探开发
运输车辆
监管方法
站点
迪杰斯特拉算法
车辆外部环境
步态特征
迎宾灯
车灯控制方法
身份
步态信息
步态特征
动态时间规整方法
数字滤波器
坐标