摘要
本发明公开了一种基于文本引导与多尺度融合的单目深度估计方法及系统,采用了跨语义注意力模块动态融合这些特征,并结合多尺度残差融合模块显著提升了深度估计的准确性和鲁棒性。与仅依赖图像特征的传统方法不同,本实施例的方法充分利用了预训练编码器中继承的丰富语义先验,从而增强了图像特征的表达能力。此外,图像的对应文本描述被编码后作为先验知识融入模型。通过交叉注意力机制动态调整图像和文本特征的权重并将它们融合在一起,随后通过多尺度残差计算捕捉图像在不同分辨率下的细粒度变化,使模型能够同时理解细节的局部信息和全局场景布局。这种设计不仅增强了模型适应复杂场景的能力,还显著提升了深度边界和细节的恢复效果。
技术关键词
单目深度估计方法
图像
文本
视觉特征
残差信息
拉普拉斯
交叉注意力机制
多尺度
通道注意力机制
线性变换矩阵
语义注意力
语义先验
加权残差
可读存储介质
特征提取模块
处理器
系统为您推荐了相关专利信息
色差校正方法
头戴显示设备
像素点
显示模组
采样点
圆锯片结构
平头
有限元分析模型
性能预测模型
特征选择算法