摘要
本发明涉及计算机视觉深度估计技术领域,特别是涉及一种基于像素空间扩散生成的无飞点单目深度估计方法和装置,本发明通过视觉基础模型提取出输入图像中的高级语义表示,并通过语义引导DiT块接收所述高级语义表示作为引导信号,增强了全局图像结构和细粒度细节的建模,同时保留了DiT块的简单性和可扩展性;语义引导DiT块有效地模拟了全局图像结构和细粒度细节,从而显著提高了深度预测的准确性;通过集成高级语义表示,直接在像素空间而不是潜在空间中执行扩散的深度预测,允许直接模拟深度的像素分布,而不是通过VAE将深度图压缩到潜在空间中再进行深度估计,从而避免了飞点对深度估计图的影响。
技术关键词
单目深度估计方法
语义
噪声样本
像素
深度预测模型
计算机可执行指令
微分方程求解器
多层感知器网络
图像结构
深度估计技术
图像投影
边缘检测算子
计算机存储介质
双线性插值
生成噪声
点云
视觉
系统为您推荐了相关专利信息
智能控制方法
在线粒度分析仪
深度预测模型
数字孪生
传感器阵列
前端组件
大语言模型
前端代码生成方法
指令
开源数据库