一种基于音频和图像融合的三维模型生成方法及设备

AITNT
正文
推荐专利
一种基于音频和图像融合的三维模型生成方法及设备
申请号:CN202410826780
申请日期:2024-06-25
公开号:CN118657882B
公开日期:2025-02-07
类型:发明专利
摘要
本发明涉及计算机视觉技术领域,公开了一种基于音频和图像融合的三维模型生成方法及设备,方法包括获取音频数据;对所述音频数据进行特征提取,得到音频特征向量;将所述音频特征向量通过训练好的对抗扩散生成模型映射为若干张第一二维图像;初始化一个三维模型,并利用所述音频特征向量从若干个随机角度渲染所述三维模型,生成若干个视角的第二二维图像;根据所述音频特征向量、所述第一二维图像和所述第二二维图像,对所述三维模型进行迭代优化,生成最终的三维模型。本发明能够学习音频和图像之间的复杂映射关系,保证了三维模型从多个视角学习三维场景的特性,不需要大规模三维标注数据集,实现了高质量和多样性兼具的三维模型生成。
技术关键词
三维模型生成方法 解码器 噪声图像 图像特征向量 音频编码器 图像编码器 计算机视觉技术 视角 数据 电子设备 处理器 存储器 注意力 表达式 误差
系统为您推荐了相关专利信息
1
基于用户画像的深度学习个性化营养推荐方法及系统
个性化营养推荐 混合神经网络模型 画像 智能餐具 滑动窗口
2
一种基于多尺度解耦表征和强化学习的跨域遥感图像目标检测方法
语义特征 图像 标签 学生 判别特征
3
一种基于边缘引导的工业表面缺陷异常检测方法
异常检测方法 解码器 工业 样本 柏林噪声
4
一种二维码水印商品防伪方法及系统
商品防伪方法 二维码水印 水印嵌入 网络解码 生成二维码
5
基于分数扩散模型的有限角CBCT重建方法及装置
编码器模块 二维离散小波变换 解码器 滤波反投影算法 蒸馏系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号