一种基于文本引导与多尺度融合的单目深度估计方法及系统

AITNT
正文
推荐专利
一种基于文本引导与多尺度融合的单目深度估计方法及系统
申请号:CN202510111292
申请日期:2025-01-23
公开号:CN119941816B
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了一种基于文本引导与多尺度融合的单目深度估计方法及系统,采用了跨语义注意力模块动态融合这些特征,并结合多尺度残差融合模块显著提升了深度估计的准确性和鲁棒性。与仅依赖图像特征的传统方法不同,本实施例的方法充分利用了预训练编码器中继承的丰富语义先验,从而增强了图像特征的表达能力。此外,图像的对应文本描述被编码后作为先验知识融入模型。通过交叉注意力机制动态调整图像和文本特征的权重并将它们融合在一起,随后通过多尺度残差计算捕捉图像在不同分辨率下的细粒度变化,使模型能够同时理解细节的局部信息和全局场景布局。这种设计不仅增强了模型适应复杂场景的能力,还显著提升了深度边界和细节的恢复效果。
技术关键词
单目深度估计方法 图像 文本 视觉特征 残差信息 拉普拉斯 交叉注意力机制 多尺度 通道注意力机制 线性变换矩阵 语义注意力 语义先验 加权残差 可读存储介质 特征提取模块 处理器
系统为您推荐了相关专利信息
1
一种颈部淋巴结肿瘤转移路径多模态智能识别系统
智能识别系统 模组 多模态 语义特征 肿瘤
2
色差校正方法、头戴显示设备及计算机可读存储介质
色差校正方法 头戴显示设备 像素点 显示模组 采样点
3
一种衣物材质智能识别方法、系统及干衣机
智能识别方法 衣物材质 衣物图像 干衣机 视频
4
一种基于图文细粒度对齐的深度跳转连接注意力多模态情感分析方法
像素块 文本 多模态情感分析 序列 图文
5
一种快速评价圆锯片结构设计方案的方法
圆锯片结构 平头 有限元分析模型 性能预测模型 特征选择算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号