一种基于扩散模型的短剧人物视频翻译方法

正文

推荐专利

一种基于扩散模型的短剧人物视频翻译方法

申请号：CN202411849011

申请日期：2024-12-16

公开号：CN119942398A

公开日期：2025-05-06

类型：发明专利

摘要

本发明公开了一种基于扩散模型的短剧人物视频翻译方法，包括以下步骤：首先将视频帧中的图片按固定尺寸进行切分，并与原始图像一起组成一个批次送入人脸检测模型进行检测；通过GPEN模型捕捉源人脸的细节特征，并对源人脸的细节特征进行增强；通过CRNet增强目标图像的亮度和对比度；通过解耦网络对源人脸的细节特征进行有效分离；将音频信号输入AudioNet网络转换成降噪后的特征表示；通过多模态的融合机制将换脸与口型对齐任务联合起来，进行端到端的训练。本发明提出了一套完整的处理流程，涵盖从人脸检测到图像增强、身份信息提取、音频特征处理以及最终的换脸和口型对齐模型训练，确保在多模态输入下生成自然流畅的视频翻译效果。

技术关键词

视频翻译方法人脸检测模型音频采集设备视频采集设备音频特征图像增强可读存储介质多模态人脸模型学习特征对比度网络生成系统身份处理器服务器

系统为您推荐了相关专利信息

一种汽车碰撞检测方法、装置、介质及设备

汽车碰撞检测方法图像车辆音频特征汽车碰撞检测装置

基于视频的异常行为检测方法和装置、设备及存储介质

预测特征音频特征提取样本视频特征提取分类子模型

一种基于音频特征的遥控器配对方法、系统及介质

遥控器配对方法蓝牙广播包音频特征遥控器配对系统电视盒

基于NLP技术实现文本主题的智能提取方法及系统

主题特征提取方法智能提取方法 NLP技术句法结构

一种乐器演奏的手部运动生成方法、装置及介质

运动生成方法音频特征手势特征乐器序列

一种基于扩散模型的短剧人物视频翻译方法

站点导航

APP 下载