摘要
本发明公开了一种基于自适应位置编码和并行解码的3D视觉定位方法及系统,其中方法包括:使用文本编码器处理输入的自然语言文本,得到文本令牌和特征;使用视觉编码器处理3D点云输入,得到种子点和特征;采用交叉编码器对视觉和文本特征进行互调,更新文本特征和视觉特征;预测种子点的置信度分数并排序,选出分数最高的候选点作为查询;根据自然语言描述的语义将文本令牌分为目标物体属性令牌和周围空间环境令牌;使用双分支并行解码器,生成新的查询特征,并由框预测头生成粗预测框;将生成的查询特征投影到位置特征和对象语义特征中,用于计算损失并训练网络;使用查询特征的投影结果为粗预测框评分,取分数最高者为视觉定位结果。
技术关键词
视觉定位方法
查询特征
令牌
注意力
视觉特征
种子
自然语言文本
分支
编码器模块
文本编码器
sigmoid函数
并行解码器
视觉定位系统
语义特征
系统为您推荐了相关专利信息
医学图像检索方法
模糊C均值聚类算法
医学图像数据库
多层感知机
预测类别
网络设计方法
样本
多尺度特征融合
注意力机制
学习分类器
裂缝监测方法
特征金字塔网络
注意力机制
三维模型
边坡裂缝监测装置
人工智能辅助
加权损失函数
诊断方法
智能辅助诊断
全景图
多因子身份验证方法
人工智能模型
权限配置策略
身份识别信息
防护方法