单目三维视觉定位方法、装置、设备及存储介质

AITNT
正文
推荐专利
单目三维视觉定位方法、装置、设备及存储介质
申请号:CN202510470167
申请日期:2025-04-15
公开号:CN120495608A
公开日期:2025-08-15
类型:发明专利
摘要
本申请公开了一种单目三维视觉定位方法、装置、设备及存储介质,涉及计算机视觉与自然语言处理技术领域,该方法包括:基于待定位目标的描述文本与场景图像,提取出文本特征、视觉特征以及深度特征;对所述文本特征、所述视觉特征以及所述深度特征进行耦合,得到多模态耦合特征;对所述多模态耦合特征进行解码,得到多模态解码特征;基于所述多模态解码特征,确定所述待定位目标的三维视觉定位结果。通过上述方式,实现了视觉特征、文本特征、深度特征之间的跨模态深度耦合,提升不同模态特征的表达能力,提升空间位置信息与高级语义信息的感知能力,能够定位出与文本描述最相关的视觉目标,提高三维目标定位的精度。
技术关键词
耦合特征 视觉特征 三维视觉定位方法 文本 场景 图像 注意力 视觉定位装置 解码模块 掩码规则 跨模态 多模态特征 关系 特征提取模块 标识符 计算机视觉
系统为您推荐了相关专利信息
1
一种大模型结合地理信息及上网行为的情感识别方法
情感识别方法 情感识别技术 大规模语料 自然语言 浏览器插件
2
物品检测方法、单片机、可视化智能锁及存储介质
识别模组 模糊算法 物品检测方法 场景 图像
3
一种融合大型语言模型的城市交通出行评价方法及系统
城市交通出行 综合评价指标体系 文本 评价方法 情感类别
4
一种基于改进型TTS技术的书法教学辅助方法及系统
TTS技术 注意力机制 书法教学 文本 生成语音
5
基于弹幕内容的封面图生成方法、装置以及电子设备
弹幕数据 文本 封面 图像 视频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号