音频驱动的口唇同步方法、装置、设备及介质

AITNT
正文
推荐专利
音频驱动的口唇同步方法、装置、设备及介质
申请号:CN202510771256
申请日期:2025-06-10
公开号:CN120602741A
公开日期:2025-09-05
类型:发明专利
摘要
本发明提供一种音频驱动的口唇同步方法、装置、设备及介质,方法包括:获取人脸真实图像、音频数据和人脸参考图像;将人脸真实图像、音频数据和人脸参考图像输入至口唇同步视频生成模型中,得到口唇同步视频生成模型输出的口唇同步视频;其中,口唇同步视频生成模型是根据音频样本、人脸参考样本以及对应的口唇同步视频样本训练得到的,口唇同步视频生成模型是根据对输入的口唇同步视频样本进行正向加噪,并结合音频样本和人脸参考样本,对正向加噪得到的噪声序列进行反向去噪训练得到的。本发明通过结合多模态特征和去噪机制,生成口唇动作精准同步、面部细节丰富、整体视觉效果自然的口唇同步视频。
技术关键词
视频生成模型 样本 音频 人脸 序列 图像 同步方法 残差网络 扩散层 噪声 交叉注意力机制 视频帧 非暂态计算机可读存储介质 编码特征 多模态特征 数据获取模块 处理器
系统为您推荐了相关专利信息
1
一种基于衍射神经网络的目标探测优化与加速方法
神经网络模型 数据分布 特征金字塔网络 增量式学习 预训练模型
2
一种基于大数据分析的短视频流量异常分析系统
短视频 社交关系分析 分析系统 时间段 关键词
3
基于强化学习的起重机智能防摇控制方法
强化学习模型 特征点 标识信息生成方法 全球定位系统数据 标记
4
一种基于多模态信息融合的虚拟角色构建系统及方法
多模态信息融合 样本 构建系统 智能管理模块 关节点
5
一种适应多元预测场景的区域负荷短期预测方法
负荷短期预测方法 灰色关联度 节点 代表 皮尔逊相关系数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号