一种基于文本引导与多尺度融合的单目深度估计方法及系统

正文

推荐专利

申请号：CN202510111292

申请日期：2025-01-23

公开号：CN119941816B

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种基于文本引导与多尺度融合的单目深度估计方法及系统，采用了跨语义注意力模块动态融合这些特征，并结合多尺度残差融合模块显著提升了深度估计的准确性和鲁棒性。与仅依赖图像特征的传统方法不同，本实施例的方法充分利用了预训练编码器中继承的丰富语义先验，从而增强了图像特征的表达能力。此外，图像的对应文本描述被编码后作为先验知识融入模型。通过交叉注意力机制动态调整图像和文本特征的权重并将它们融合在一起，随后通过多尺度残差计算捕捉图像在不同分辨率下的细粒度变化，使模型能够同时理解细节的局部信息和全局场景布局。这种设计不仅增强了模型适应复杂场景的能力，还显著提升了深度边界和细节的恢复效果。

技术关键词

单目深度估计方法图像文本视觉特征残差信息拉普拉斯交叉注意力机制多尺度通道注意力机制线性变换矩阵语义注意力语义先验加权残差可读存储介质特征提取模块处理器

系统为您推荐了相关专利信息

一种颈部淋巴结肿瘤转移路径多模态智能识别系统

智能识别系统模组多模态语义特征肿瘤

色差校正方法、头戴显示设备及计算机可读存储介质

色差校正方法头戴显示设备像素点显示模组采样点

一种衣物材质智能识别方法、系统及干衣机

智能识别方法衣物材质衣物图像干衣机视频

一种基于图文细粒度对齐的深度跳转连接注意力多模态情感分析方法

像素块文本多模态情感分析序列图文

一种快速评价圆锯片结构设计方案的方法

圆锯片结构平头有限元分析模型性能预测模型特征选择算法

一种基于文本引导与多尺度融合的单目深度估计方法及系统

站点导航

APP 下载