基于音频驱动的人脸对话生成模型的人脸视频生成方法

AITNT
正文
推荐专利
基于音频驱动的人脸对话生成模型的人脸视频生成方法
申请号:CN202411029024
申请日期:2024-07-30
公开号:CN119028369B
公开日期:2025-06-17
类型:发明专利
摘要
本发明公开了一种基于音频驱动的人脸对话生成模型的人脸视频生成方法。方法包括:建立唇音同步判别网络和基于质量注意力的音频驱动唇形网络;使用唇音同步训练集对网络进行训练,根据唇音同步判别网络的判别损失函数构建基于质量注意力的音频驱动唇形网络的整体损失函数,直至整体损失函数收敛完成训练;根据待回复文字或音频获得回复音频;将回复音频以及待生成人物的人脸图像输入训练完成的网络中,输出当前人物在读取当前回复音频时的人脸视频,最终在显示器上显示。本发明方法有效改善了唇形生成的同步效果和整体人脸的图像质量,并能够与客户进行对话,旨在生成具有自然头部运动、唇音同步效果良好的真实人脸视频。
技术关键词
注意力机制 对话生成模型 人脸 视频生成方法 音频编码器 对话系统 图像编码器 训练集 更新网络参数 解码器 自然语言 重构 梯度下降法 对抗性
系统为您推荐了相关专利信息
1
GPU需求预测方法及Spot GPU库存预测方法
库存预测方法 需求预测方法 序列 表达式 在线
2
基于交互控制的文本到图像生成方法、系统、设备及介质
图像生成模型 文本 图像生成方法 生成噪声 噪声图像
3
一种基于时空融合图神经网络的报警识别方法
报警识别方法 门控循环单元 皮尔逊相关系数 多元时序数据 变量
4
一种基于改进YOLOv8的芯片表面缺陷检测方法
注意力机制 金字塔网络 芯片表面缺陷检测 分辨率 通道
5
基于人工智能的应用界面重排方法、系统、设备及介质
布局优化算法 点击概率 重排方法 补丁 界面
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号