摘要
一种用于多模态语义分割的混合提示架构融合方法,属于计算机视觉领域。本发明实现方法为:基于RGB预训练模型构建多模态嵌入模块;对于多模态嵌入模块输出的初始提示和主干网络输入的RGB特征,使用线性映射投影到低秩子空间完成特征对齐,引入混合矩阵将低秩子空间的RGB特征与提示信息融合,新的提示信息与主干网络编码的RGB特征融合;引入轻量化的多子空间对齐和混合提示模块;使用主干网络的多分辨率自注意力编码器编码RGB图像特征,辅助图像信息通过多模态嵌入模块生成初始提示,初始提示信息与RGB图像特征通过多子空间对齐与混合提示模块融合形成新的提示信息与RGB图像特征融合,融合RGB图像与辅助模态的语义信息。
技术关键词
架构融合方法
多模态
混合矩阵
语义
模态特征
图像
注意力编码器
表达式
分辨率
采样模块
提示生成方法
线性
网络架构
多层级特征
融合特征
多层感知器
系统为您推荐了相关专利信息
语句
语义特征
融合特征
冲突预测方法
注意力机制
句法结构
文本处理方法
训练语言模型
语义角色标注
文本处理装置
多模态医学影像
形态学特征
血流模拟系统
模拟程序
图谱
群体决策方法
多模态
可穿戴设备
池化算法
音视频