摘要
本发明公开了一种考虑模态缺失情境的多模态ViT视觉模型结构的构建方法,所述方法针对传统ViT多模态视觉模型在模型训练过程中数据增强对模态缺失情况的模拟能力有限,并且在模型结构设计方面未考虑到模态缺失的情境,提出了考虑模态缺失情境的多模态ViT视觉模型结构,构建步骤如下:步骤一、单模态分支结构设计;步骤二、缺失模态的检测;步骤三、缺失模态的投影;步骤四、多模态融合ViT。本发明妥善处理了模态缺失的情境,在模态缺失的情境下依然能维持较高性能和稳定输出,提升了模型的准确性和鲁棒性,减少了因模态缺失而可能导致的安全隐患。
技术关键词
编码器
视觉
序列特征
多模态
多层感知机
条件指示符
融合特征
图像分割
实例分割
编码特征
模态特征
参数
激光点
激光雷达
动态地
立方体
分支
鲁棒性
坐标
系统为您推荐了相关专利信息
电视节目收视率
多源异构数据
预测系统
多模态信息融合
多模态数据融合
人工湿地植物
训练卷积神经网络模型
滤料
农村
通用分组无线服务技术
情感分析方法
多模态
网络架构
数据
脑电信号特征
面向多模态数据
分类方法
节点特征
语言编码器
语义