摘要
本发明涉及计算机视觉技术领域,公开了一种基于音频和图像融合的三维模型生成方法及设备,方法包括获取音频数据;对所述音频数据进行特征提取,得到音频特征向量;将所述音频特征向量通过训练好的对抗扩散生成模型映射为若干张第一二维图像;初始化一个三维模型,并利用所述音频特征向量从若干个随机角度渲染所述三维模型,生成若干个视角的第二二维图像;根据所述音频特征向量、所述第一二维图像和所述第二二维图像,对所述三维模型进行迭代优化,生成最终的三维模型。本发明能够学习音频和图像之间的复杂映射关系,保证了三维模型从多个视角学习三维场景的特性,不需要大规模三维标注数据集,实现了高质量和多样性兼具的三维模型生成。
技术关键词
三维模型生成方法
解码器
噪声图像
图像特征向量
音频编码器
图像编码器
计算机视觉技术
视角
数据
电子设备
处理器
存储器
注意力
表达式
误差
系统为您推荐了相关专利信息
个性化营养推荐
混合神经网络模型
画像
智能餐具
滑动窗口
商品防伪方法
二维码水印
水印嵌入
网络解码
生成二维码
编码器模块
二维离散小波变换
解码器
滤波反投影算法
蒸馏系统