摘要
本申请公开了一种自动驾驶场景的语义分割交互标注方法及相关装置,方法包括获取图像嵌入和提示嵌入;将提示嵌入和初始化的预测令牌拼接,得到令牌嵌入;将令牌嵌入与图像嵌入组成映射输入transformer模块中,通过多头注意力机制更新令牌嵌入并融合提示嵌入和图像嵌入,生成上下文感知的中间表示;将更新后的掩码令牌输入分类头中,预测掩码令牌对应掩码的感兴趣区域的目标类型。本申请无需庞大的分类数据集,仅通过添加分类分支,即可在开源算法基础上微调自己的数据集,有效解决了现有技术中串联SAM模型和分类模型存在的分类参数过大、推理速度过慢、对机器配置要求过高、影响交互式标注体验的技术问题。
技术关键词
令牌
图像嵌入
标注方法
生成上下文感知
多头注意力机制
语义
感兴趣
多层感知机
双层编码器
编码向量
机器可读存储介质
存储器存储指令
指针
对象
标注装置
拼接模块
场景
解码模块
系统为您推荐了相关专利信息
加权特征
语义特征
点云数据处理方法
令牌
融合特征
边缘计算环境
多头注意力机制
卸载策略
策略更新
递归神经网络建模
智能预测方法
融合卷积神经网络
搜索优化系统
混合网络模型
三维场景数据