一种基于自适应位置编码和并行解码的3D视觉定位方法及系统

正文

推荐专利

申请号：CN202411537179

申请日期：2024-10-31

公开号：CN119399443B

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了一种基于自适应位置编码和并行解码的3D视觉定位方法及系统，其中方法包括：使用文本编码器处理输入的自然语言文本，得到文本令牌和特征；使用视觉编码器处理3D点云输入，得到种子点和特征；采用交叉编码器对视觉和文本特征进行互调，更新文本特征和视觉特征；预测种子点的置信度分数并排序，选出分数最高的候选点作为查询；根据自然语言描述的语义将文本令牌分为目标物体属性令牌和周围空间环境令牌；使用双分支并行解码器，生成新的查询特征，并由框预测头生成粗预测框；将生成的查询特征投影到位置特征和对象语义特征中，用于计算损失并训练网络；使用查询特征的投影结果为粗预测框评分，取分数最高者为视觉定位结果。

技术关键词

视觉定位方法查询特征令牌注意力视觉特征种子自然语言文本分支编码器模块文本编码器 sigmoid函数并行解码器视觉定位系统语义特征

系统为您推荐了相关专利信息

一种基于模糊哈希网络的医学图像检索方法

医学图像检索方法模糊C均值聚类算法医学图像数据库多层感知机预测类别

一种基于小样本任务的候选框生成网络设计方法

网络设计方法样本多尺度特征融合注意力机制学习分类器

一种边坡裂缝监测方法、装置、介质及设备

裂缝监测方法特征金字塔网络注意力机制三维模型边坡裂缝监测装置

基于实景口腔图像的口腔癌人工智能辅助诊断方法及设备

人工智能辅助加权损失函数诊断方法智能辅助诊断全景图

基于零信任架构的电力人工智能模型安全防护方法及系统

多因子身份验证方法人工智能模型权限配置策略身份识别信息防护方法

一种基于自适应位置编码和并行解码的3D视觉定位方法及系统

站点导航

APP 下载