摘要
本发明涉及一种基于语义指导的零样本泛化三维物体重建方法,属于计算机视觉和图像处理技术领域。该方法包括:利用了分数蒸馏采样策略在单幅图像三维重建过程中的优越性;设计提示词,指导多模态大语言模型生成对图像从粗粒度到细粒度的描述,指导三维结果的生成;采用了一种多模态数据对齐的策略,实现语义和视觉模态的对齐,将语义信息融入到生成的三维结构中。本发明能够以零样本泛化解决单幅图像生成三维物体结构的问题,并在真实数据集中对本发明进行实验验证,证明了本发明的优越性。
技术关键词
三维物体重建方法
隐式结构
大语言模型
多视角
三维结构
样本
多模态
网络
生成三维物体
噪声
语义特征
深度图
文本编码器
图像编码器
法线贴图
系统为您推荐了相关专利信息
幼儿
对话系统
人工智能机器人
数据储存模块
教师
影视剧
大语言模型
行人重识别算法
视频场景分割
脚本