摘要
本发明公开了一种基于开放词汇的复杂场景理解方法及系统,基于RGB‑D相机实现,方法包括:获取待研究复杂场景的点云数据;输入待研究复杂场景可能存在的物体名称的文本,提取文本特征;通过已训练好的3D特征提取模型对点云数据提取3D特征;对3D特征和文本特征的转置进行点乘,根据点乘结果得到语义标签值,确定待研究复杂场景包含的物体;3D特征提取模型的训练步骤包括:设计2D‑3D特征融合网络,通过损失函数对2D‑3D特征融合网络和3D特征提取模型进行联合训练,引导融合后的特征向2D特征靠近,具有开放词汇能力,并和3D特征差距可控,避免丢失结构信息和语义信息,通过小物体加权优化,提高小物体类别的识别精度。
技术关键词
特征融合网络
特征提取模型
场景理解方法
文本
交叉注意力机制
物体
语义标签
归一化模块
特征提取模块
多视角
相机
理解系统
图像
坐标
数据
线性
系统为您推荐了相关专利信息
文本识别方法
文本识别模型
文本生成模型
图像拼接
样本
大语言模型
文本
队列
节点更新
非暂态计算机可读存储介质
工作流管理
数据归档
业务规则引擎
解析单元
语义分析引擎
信息采集方法
自动语音识别技术
机器人
机器学习技术
自然语言
图像分类方法
声呐
高频特征
图像分类网络
多头注意力机制