单目三维视觉定位方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510470167

申请日期：2025-04-15

公开号：CN120495608A

公开日期：2025-08-15

类型：发明专利

摘要

本申请公开了一种单目三维视觉定位方法、装置、设备及存储介质，涉及计算机视觉与自然语言处理技术领域，该方法包括：基于待定位目标的描述文本与场景图像，提取出文本特征、视觉特征以及深度特征；对所述文本特征、所述视觉特征以及所述深度特征进行耦合，得到多模态耦合特征；对所述多模态耦合特征进行解码，得到多模态解码特征；基于所述多模态解码特征，确定所述待定位目标的三维视觉定位结果。通过上述方式，实现了视觉特征、文本特征、深度特征之间的跨模态深度耦合，提升不同模态特征的表达能力，提升空间位置信息与高级语义信息的感知能力，能够定位出与文本描述最相关的视觉目标，提高三维目标定位的精度。

技术关键词

耦合特征视觉特征三维视觉定位方法文本场景图像注意力视觉定位装置解码模块掩码规则跨模态多模态特征关系特征提取模块标识符计算机视觉

系统为您推荐了相关专利信息

一种大模型结合地理信息及上网行为的情感识别方法

情感识别方法情感识别技术大规模语料自然语言浏览器插件

物品检测方法、单片机、可视化智能锁及存储介质

识别模组模糊算法物品检测方法场景图像

一种融合大型语言模型的城市交通出行评价方法及系统

城市交通出行综合评价指标体系文本评价方法情感类别

一种基于改进型TTS技术的书法教学辅助方法及系统

TTS技术注意力机制书法教学文本生成语音

基于弹幕内容的封面图生成方法、装置以及电子设备

弹幕数据文本封面图像视频

单目三维视觉定位方法、装置、设备及存储介质

站点导航

APP 下载