音频驱动的口唇同步方法、装置、设备及介质

正文

推荐专利

申请号：CN202510771256

申请日期：2025-06-10

公开号：CN120602741A

公开日期：2025-09-05

类型：发明专利

摘要

本发明提供一种音频驱动的口唇同步方法、装置、设备及介质，方法包括：获取人脸真实图像、音频数据和人脸参考图像；将人脸真实图像、音频数据和人脸参考图像输入至口唇同步视频生成模型中，得到口唇同步视频生成模型输出的口唇同步视频；其中，口唇同步视频生成模型是根据音频样本、人脸参考样本以及对应的口唇同步视频样本训练得到的，口唇同步视频生成模型是根据对输入的口唇同步视频样本进行正向加噪，并结合音频样本和人脸参考样本，对正向加噪得到的噪声序列进行反向去噪训练得到的。本发明通过结合多模态特征和去噪机制，生成口唇动作精准同步、面部细节丰富、整体视觉效果自然的口唇同步视频。

技术关键词

视频生成模型样本音频人脸序列图像同步方法残差网络扩散层噪声交叉注意力机制视频帧非暂态计算机可读存储介质编码特征多模态特征数据获取模块处理器

系统为您推荐了相关专利信息

一种基于衍射神经网络的目标探测优化与加速方法

神经网络模型数据分布特征金字塔网络增量式学习预训练模型

一种基于大数据分析的短视频流量异常分析系统

短视频社交关系分析分析系统时间段关键词

基于强化学习的起重机智能防摇控制方法

强化学习模型特征点标识信息生成方法全球定位系统数据标记

一种基于多模态信息融合的虚拟角色构建系统及方法

多模态信息融合样本构建系统智能管理模块关节点

一种适应多元预测场景的区域负荷短期预测方法

负荷短期预测方法灰色关联度节点代表皮尔逊相关系数

音频驱动的口唇同步方法、装置、设备及介质

站点导航

APP 下载