摘要
本发明涉及数据处理技术领域,具体涉及一种基于机器学习的数据清洗方法及系统,获取空气中PM2.5的浓度数据时序序列,计算时序序列内每个数据点的初始标签值;得到PM2.5的浓度数据时序序列中每个数据点的相似数据点;根据每个数据点的初始标签值构成每个数据点的修正标签序列;根据修正标签序列中的每个标签值、每个相似数据点的标签值以及每个数据点与每个数据点的每个相似数据点的时间间隔,得到每个数据点的最终修正标签序列,最后从所有数据点中筛选出若干个异常数据点。本发明通过对每个数据点的标签值进行不断的修正,结合每个数据点的修正标签序列中每种标签值出现的频数,提高了识别异常数据的准确性。
技术关键词
标签
数据清洗方法
序列
皮尔逊相关系数
异常数据点
时序
数据清洗系统
识别异常数据
周期性
数据处理技术
处理器
存储器
时间段
聚类
空气
算法
系统为您推荐了相关专利信息
欺诈识别方法
数字金融业务
预警机制
深度学习模型
数据共享平台
移动预测方法
层级
分层树结构
马斯洛需求层次理论
标签