一种掩码恢复表观的高分辨率视频重配音生成方法

正文

推荐专利

申请号：CN202510267673

申请日期：2025-03-07

公开号：CN120388108A

公开日期：2025-07-29

类型：发明专利

摘要

本发明公开了一种掩码恢复表观的高分辨率视频重配音生成方法，包括以下步骤：(1)输入数据与预处理；(2)采用MAE编码器进行掩码重建，推理出面部的结构特征，通过多尺度解码器生成不同分辨率的特征图，结合gating机制使特征与不同输入尺寸的参考帧对齐，捕捉嘴部和眼部等关键区域的静态结构特征；(3)通过参考帧提取纹理特征与生成的结构特征进行融合；同时将驱动音频特征通过跨注意力机制与融合特征结合，生成动态对齐后的纹理特征；采用AdaAT算法实现动态特征的仿射变换，确保嘴部动态与音频同步；(4)生成重配音视频；本发明显著提升生成的稳定性和姿势适应性，实现精确的嘴部与音频同步。

技术关键词

生成方法卷积解码器音频特征音频编码器语义特征融合特征动态纹理特征交叉注意力机制音视频多尺度面部图像块

系统为您推荐了相关专利信息

一种基于柔性涡流传感器的叶盘检测方法

柔性涡流传感器 FPGA芯片去噪模型阵列探头信号处理模块

一种跨境电商防信息泄露订单号生成方法及系统

防信息泄露标识符加密节点生成方法

一种信息安全传输的图像识别与文本还原方法及装置

文本还原方法还原装置数据图片视频录制设备

一种资产分析报告生成方法、设备及介质

分析报告生成方法支持向量机回归资产识别特征马尔可夫模型

视频处理方法、装置、计算机设备和存储介质

视频融合特征声纹特征智能模型对象

一种掩码恢复表观的高分辨率视频重配音生成方法

站点导航

APP 下载