摘要
本发明提供了一种基于异常检测的多模态预训练数据集清洗方法及装置,具有这样的特征,包括步骤S1,构建特征提取器,并根据多模态大数据集对特征提取器进行训练,得到训练好的特征提取器;步骤S2,对各个数据点,通过训练好的特征提取器提取各个不同模态的数据对应的特征;步骤S3,根据各个数据点的所有特征,通过局部异常检测方法,计算得到各个数据点的不同模态的数据对应的异常值;步骤S4,根据各个数据点的所有异常值,选取多个数据点作为异常点,并将剔除异常点的多模态大数据集作为清洗数据集。总之,本方法能够自动且高效地剔除数据中的异常样本。
技术关键词
数据集清洗方法
特征提取器
多模态大数据
异常检测方法
异常点
表达式
特征提取模块
样本
数值
本质
参数
系统为您推荐了相关专利信息
动态网格
环境监控系统
多路径
时间域
多元回归模型
装备故障预测方法
特征提取模块
设备全寿命周期
特征提取器
脉冲