一种优化生成唇形驱动视频效果的方法、装置及存储介质

正文

推荐专利

申请号：CN202510130118

申请日期：2025-02-05

公开号：CN120075548A

公开日期：2025-05-30

类型：发明专利

摘要

本发明公开一种优化生成唇形驱动视频效果的方法、装置及存储介质，其中，优化生成唇形驱动视频效果的方法包括：将语音文件、视频文件输入至唇形同步深度学习模型，输出语音视频，语音视频中数字人唇形动态效果与语音文件中文字内容相匹配；所述唇形同步深度学习模型的训练过程包括：针对训练数据样本集进行数据预处理，基于训练数据样本集中的目标图target img随机选取与目标图target img之间的角度差异被限制在设定范围内的参考图Ref img；将参考图Ref img、目标图target img和mask图作为唇形同步深度学习模型的输入进行训练。本发明的一种优化生成唇形驱动视频效果的方法，在进行模型训练时能抑制过拟合，鲁棒性更高；同时，可以更快的训练出模型。

技术关键词

视频计算机可执行程序语音深度学习模型训练计算机可读记录介质样本数据感知损失函数人脸像素地标多尺度处理器时序存储器鲁棒性电子设备模块

系统为您推荐了相关专利信息

一种数字化回忆干预系统的智能语音互动方法

互动方法语谱图智能语音元素语音采集模块

一种基于视频分析的交通流量统计和拥堵分析方法和系统

拥堵分析方法交通流量统计视频分析车道数据处理模块

施工作业区域的安全管理方法及相关设备

深度学习模型异常状态管理方法管理设备人工智能模型

生成模型优化方法和装置、电子设备及存储介质

检查点模型优化方法数据非易失性计算机可读存储介质计算机程序指令

视频级多模态伪装识别系统及识别方法

光谱特征提取反射率图像像素点伪装识别方法彩色图像

一种优化生成唇形驱动视频效果的方法、装置及存储介质

站点导航

APP 下载