一种基于音频和图像融合的三维模型生成方法及设备

正文

推荐专利

申请号：CN202410826780

申请日期：2024-06-25

公开号：CN118657882B

公开日期：2025-02-07

类型：发明专利

摘要

本发明涉及计算机视觉技术领域，公开了一种基于音频和图像融合的三维模型生成方法及设备，方法包括获取音频数据；对所述音频数据进行特征提取，得到音频特征向量；将所述音频特征向量通过训练好的对抗扩散生成模型映射为若干张第一二维图像；初始化一个三维模型，并利用所述音频特征向量从若干个随机角度渲染所述三维模型，生成若干个视角的第二二维图像；根据所述音频特征向量、所述第一二维图像和所述第二二维图像，对所述三维模型进行迭代优化，生成最终的三维模型。本发明能够学习音频和图像之间的复杂映射关系，保证了三维模型从多个视角学习三维场景的特性，不需要大规模三维标注数据集，实现了高质量和多样性兼具的三维模型生成。

技术关键词

三维模型生成方法解码器噪声图像图像特征向量音频编码器图像编码器计算机视觉技术视角数据电子设备处理器存储器注意力表达式误差

系统为您推荐了相关专利信息

基于用户画像的深度学习个性化营养推荐方法及系统

个性化营养推荐混合神经网络模型画像智能餐具滑动窗口

一种基于多尺度解耦表征和强化学习的跨域遥感图像目标检测方法

语义特征图像标签学生判别特征

一种基于边缘引导的工业表面缺陷异常检测方法

异常检测方法解码器工业样本柏林噪声

一种二维码水印商品防伪方法及系统

商品防伪方法二维码水印水印嵌入网络解码生成二维码

基于分数扩散模型的有限角CBCT重建方法及装置

编码器模块二维离散小波变换解码器滤波反投影算法蒸馏系统

一种基于音频和图像融合的三维模型生成方法及设备

站点导航

APP 下载