一种基于扩散模型的短剧人物视频翻译方法

AITNT
正文
推荐专利
一种基于扩散模型的短剧人物视频翻译方法
申请号:CN202411849011
申请日期:2024-12-16
公开号:CN119942398A
公开日期:2025-05-06
类型:发明专利
摘要
本发明公开了一种基于扩散模型的短剧人物视频翻译方法,包括以下步骤:首先将视频帧中的图片按固定尺寸进行切分,并与原始图像一起组成一个批次送入人脸检测模型进行检测;通过GPEN模型捕捉源人脸的细节特征,并对源人脸的细节特征进行增强;通过CRNet增强目标图像的亮度和对比度;通过解耦网络对源人脸的细节特征进行有效分离;将音频信号输入AudioNet网络转换成降噪后的特征表示;通过多模态的融合机制将换脸与口型对齐任务联合起来,进行端到端的训练。本发明提出了一套完整的处理流程,涵盖从人脸检测到图像增强、身份信息提取、音频特征处理以及最终的换脸和口型对齐模型训练,确保在多模态输入下生成自然流畅的视频翻译效果。
技术关键词
视频翻译方法 人脸检测模型 音频采集设备 视频采集设备 音频特征 图像增强 可读存储介质 多模态 人脸模型 学习特征 对比度 网络 生成系统 身份 处理器 服务器
系统为您推荐了相关专利信息
1
一种汽车碰撞检测方法、装置、介质及设备
汽车碰撞检测方法 图像 车辆 音频特征 汽车碰撞检测装置
2
基于视频的异常行为检测方法和装置、设备及存储介质
预测特征 音频特征提取 样本 视频特征提取 分类子模型
3
一种基于音频特征的遥控器配对方法、系统及介质
遥控器配对方法 蓝牙广播包 音频特征 遥控器配对系统 电视盒
4
基于NLP技术实现文本主题的智能提取方法及系统
主题 特征提取方法 智能提取方法 NLP技术 句法结构
5
一种乐器演奏的手部运动生成方法、装置及介质
运动生成方法 音频特征 手势特征 乐器 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号