摘要
本发明公开了一种基于知识引导特征增强与多模态融合的三维密集描述方法,该方法首先搭建并训练包括三维目标检测模块、知识引导特征增强模块、多模态融合模块以及文本生成模块的端到端三维密集描述网络;在描述过程中,输入的场景点云首先通过三维目标检测模块转化为视觉特征,利用知识引导特征增强模块以目标类别为查询条件,从知识图谱中检索并编码相关知识特征,将知识特征与视觉特征通过多模态融合模块融合为目标特征向量;将目标特征向量输入到文本生成模块中,生成场景中各目标及其相互空间关系的自然语言文本。与现有技术相比,本发明的方法通过引入先验语义知识,生成的描述文本在目标细节和空间关系等方面更为准确、详尽。
技术关键词
矩阵
注意力
上下文特征
多尺度特征
多模态
模块
节点特征
视觉特征
自然语言文本
网络
全局平均池化
关系
线性
解码结构
检测损失
多层感知机
生成场景
系统为您推荐了相关专利信息
零件检测方法
材料特性参数
工业生产
可见光图像
多光谱
滑动窗口
红外热像图
时序
温度预测方法
注意力模型
外观缺陷检测
神经网络训练方法
滤除背景噪声
注意力机制
神经网络训练系统
多模态传感器
检查方法
仓库
红外热成像仪
多模态数据采集