摘要
本发明公开了一种基于对抗神经网络的音频驱动图像编辑方法,其特点是该方法具体包括:使用深度残差网络提取音频和图像两种模态特征、利用多头注意力机制进行跨模态特征的早期融合、通过对比学习利用多尺度结构信息鉴别器处理生成图像和原始图像的结构信息、利用音频图像模态语义信息鉴别器处理生成图像和输入音频之间的语义信息、对融合后的跨模态特征进行解码生成目标图像。本发明与现有技术相比可以从未标记的视听数据中学习视觉风格,同时利用对比学习策略提高生成图像和原始图像之间的结构信息,较好的解决了先前图像编辑模型产生的图像结构布局明显变化的问题,可以获得更加稳定真实的图像,具有良好的应用前景。
技术关键词
图像编辑方法
模态特征
多头注意力机制
图像编码器
深度残差网络
多尺度结构
语义
跨模态
图像解码器
全卷积网络
视频帧
样本
图像结构
多层感知机
音频特征
视听
融合特征
系统为您推荐了相关专利信息
混合整数规划模型
出力场景
新能源场站
气候
风险
水电站设备
数据
多模态特征
移动终端
训练深度学习模型
局部感兴趣区域
视频帧信息
演化特征
识别方法
多层注意力机制