摘要
本发明提供了一种用于视觉场景理解的三维特征优化方法、装置和电子设备,该方法中,采用特征密化模块对稀疏三维特征进行逐层聚合,进而得到具有全局几何和语义信息的稠密三维特征,可显著提升模型对三维场景全局和局部信息的捕捉能力,另外,随机特征查询和实例特征查询的结合,以及稠密三维特征、图像特征的聚合,得到的优化三维特征,解决了场景中的不确定性区域问题,提高了模型的鲁棒性和关键对象的预测精度。
技术关键词
特征优化方法
场景
交叉注意力机制
图像
预训练网络
语义
多视角
电子设备
处理器
可读存储介质
视觉
优化装置
模块
指令
存储器
鲁棒性
计算机
对象