一种基于对抗神经网络的音频驱动图像编辑方法

正文

推荐专利

申请号：CN202410875475

申请日期：2024-07-02

公开号：CN118524266A

公开日期：2024-08-20

类型：发明专利

摘要

本发明公开了一种基于对抗神经网络的音频驱动图像编辑方法，其特点是该方法具体包括：使用深度残差网络提取音频和图像两种模态特征、利用多头注意力机制进行跨模态特征的早期融合、通过对比学习利用多尺度结构信息鉴别器处理生成图像和原始图像的结构信息、利用音频图像模态语义信息鉴别器处理生成图像和输入音频之间的语义信息、对融合后的跨模态特征进行解码生成目标图像。本发明与现有技术相比可以从未标记的视听数据中学习视觉风格，同时利用对比学习策略提高生成图像和原始图像之间的结构信息，较好的解决了先前图像编辑模型产生的图像结构布局明显变化的问题，可以获得更加稳定真实的图像，具有良好的应用前景。

技术关键词

图像编辑方法模态特征多头注意力机制图像编码器深度残差网络多尺度结构语义跨模态图像解码器全卷积网络视频帧样本图像结构多层感知机音频特征视听融合特征

系统为您推荐了相关专利信息

基于气候响应能力风险分析的交直流混联网架规划方法

混合整数规划模型出力场景新能源场站气候风险

文本驱动的针织产品图像生成与编辑方法及装置

针织产品融合特征编辑方法多模态特征多层次

用于水电站管理的多模态融合告警系统及方法

水电站设备数据多模态特征移动终端训练深度学习模型

基于人工智能的视频目标识别方法、装置及存储介质

局部感兴趣区域视频帧信息演化特征识别方法多层注意力机制

基于多尺度多模态特征的层级结构的图像相似度匹配方法

多模态特征样本层级多尺度图像综合特征

一种基于对抗神经网络的音频驱动图像编辑方法

站点导航

APP 下载