摘要
本发明公开了一种基于机器学习的数据质量控制与预处理的方法,该方法具体包括如下步骤:S1,对长时间序列构造三段时间窗口,并对数据进行预处理;S2,利用统计判别算法过滤掉数据集的正样本,获取负样本数据集;S3,对于负样本数据集,构建单分类模型进行判决,完成异常值的处理;S4,获取S1中预处理后的数据集,采用监督‑无监督混合训练方法对数据集进行优化,获取缺测值填补后的数据集;S5,填补执行与多维验证,对S4中获取的缺测值填补后的数据集通过随机森林模型进行结果验证,完成缺测值的填补。本发明通过预处理前的动态时间窗口划分,构建短、中、长三时段滑动窗口,同步提取统计,解决传统方法因窗口固定导致的长期关联捕捉不足问题。
技术关键词
随机森林模型
移动平均算法
归一化方法
判别算法
样本
无监督
分类特征
动态时间窗口
统计特征
异常检测器
生成对抗网络
序列
验证机制
滑动窗口
异常数据
多项式
编码器
极值
系统为您推荐了相关专利信息
网关
数据安全
指令
特征提取模块
分布式存储技术
水稻种子萌发
深度学习模型
特征金字塔网络
图像分割模型
拍照设备
评分卡模型
逻辑回归模型
异常用户
信用评分方法
样本
孪生神经网络
筛选方法
大语言模型
多模态
社会研究