摘要
本公开提供了一种基于大模型的深度图生成方法、三维重建方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于实时道路场景深度感知、环境三维重建与避障,以及虚实场景融合等场景下。具体实现方案为:对单目图像进行视觉编码,得到编码图像;将编码图像和目标文本输入预训练大语言模型进行融合,得到融合特征;基于融合特征生成全局引导特征,全局引导特征包括视觉特征和文本特征的联合语义信息;对单目图像的彩色图像添加噪声,得到噪声特征序列;以全局引导特征为条件,对噪声特征序列进行去噪,生成与联合语义信息匹配的隐式特征;基于隐式特征生成深度图。
技术关键词
噪声特征
融合特征
视觉特征
文本
图像采集设备
三维重建方法
彩色图像编码
生成深度图
大语言模型
隐式特征
序列
深度图生成装置
多尺度特征
生成方法
语义
三维重建装置
系统为您推荐了相关专利信息
信息抽取方法
实体
细粒度分类
BERT模型
文本
汽车天窗
智能检测方法
成像仪
图像处理网络
噪声图像
分层数据对象
图形用户界面
关键字搜索方法
文本
大语言模型
监控分析方法
深度学习模型
视觉特征
文本
视频监控分析系统