一种基于对抗神经网络的音频驱动图像编辑方法

AITNT
正文
推荐专利
一种基于对抗神经网络的音频驱动图像编辑方法
申请号:CN202410875475
申请日期:2024-07-02
公开号:CN118524266A
公开日期:2024-08-20
类型:发明专利
摘要
本发明公开了一种基于对抗神经网络的音频驱动图像编辑方法,其特点是该方法具体包括:使用深度残差网络提取音频和图像两种模态特征、利用多头注意力机制进行跨模态特征的早期融合、通过对比学习利用多尺度结构信息鉴别器处理生成图像和原始图像的结构信息、利用音频图像模态语义信息鉴别器处理生成图像和输入音频之间的语义信息、对融合后的跨模态特征进行解码生成目标图像。本发明与现有技术相比可以从未标记的视听数据中学习视觉风格,同时利用对比学习策略提高生成图像和原始图像之间的结构信息,较好的解决了先前图像编辑模型产生的图像结构布局明显变化的问题,可以获得更加稳定真实的图像,具有良好的应用前景。
技术关键词
图像编辑方法 模态特征 多头注意力机制 图像编码器 深度残差网络 多尺度结构 语义 跨模态 图像解码器 全卷积网络 视频帧 样本 图像结构 多层感知机 音频特征 视听 融合特征
系统为您推荐了相关专利信息
1
基于气候响应能力风险分析的交直流混联网架规划方法
混合整数规划模型 出力场景 新能源场站 气候 风险
2
文本驱动的针织产品图像生成与编辑方法及装置
针织产品 融合特征 编辑方法 多模态特征 多层次
3
用于水电站管理的多模态融合告警系统及方法
水电站设备 数据 多模态特征 移动终端 训练深度学习模型
4
基于人工智能的视频目标识别方法、装置及存储介质
局部感兴趣区域 视频帧信息 演化特征 识别方法 多层注意力机制
5
基于多尺度多模态特征的层级结构的图像相似度匹配方法
多模态特征 样本 层级 多尺度 图像综合特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号