基于音频驱动的人脸对话生成模型的人脸视频生成方法

正文

推荐专利

申请号：CN202411029024

申请日期：2024-07-30

公开号：CN119028369B

公开日期：2025-06-17

类型：发明专利

摘要

本发明公开了一种基于音频驱动的人脸对话生成模型的人脸视频生成方法。方法包括：建立唇音同步判别网络和基于质量注意力的音频驱动唇形网络；使用唇音同步训练集对网络进行训练，根据唇音同步判别网络的判别损失函数构建基于质量注意力的音频驱动唇形网络的整体损失函数，直至整体损失函数收敛完成训练；根据待回复文字或音频获得回复音频；将回复音频以及待生成人物的人脸图像输入训练完成的网络中，输出当前人物在读取当前回复音频时的人脸视频，最终在显示器上显示。本发明方法有效改善了唇形生成的同步效果和整体人脸的图像质量，并能够与客户进行对话，旨在生成具有自然头部运动、唇音同步效果良好的真实人脸视频。

技术关键词

注意力机制对话生成模型人脸视频生成方法音频编码器对话系统图像编码器训练集更新网络参数解码器自然语言重构梯度下降法对抗性

系统为您推荐了相关专利信息

GPU需求预测方法及Spot GPU库存预测方法

库存预测方法需求预测方法序列表达式在线

基于交互控制的文本到图像生成方法、系统、设备及介质

图像生成模型文本图像生成方法生成噪声噪声图像

一种基于时空融合图神经网络的报警识别方法

报警识别方法门控循环单元皮尔逊相关系数多元时序数据变量

一种基于改进YOLOv8的芯片表面缺陷检测方法

注意力机制金字塔网络芯片表面缺陷检测分辨率通道

基于人工智能的应用界面重排方法、系统、设备及介质

布局优化算法点击概率重排方法补丁界面

基于音频驱动的人脸对话生成模型的人脸视频生成方法

站点导航

APP 下载