摘要
本申请涉及数据处理技术领域,尤其涉及一种基于大数据分析的数据清洗方法,方法包括:依据待清洗数据的低维表征获取核心数据,利用核心数据训练神经网络;计算各核心数据的训练有效性和低维表征中各维度的损失敏感度;计算核心数据之外各待清洗数据的选择概率,将选择概率大于选取阈值的待清洗数据作为新的核心数据;利用新的核心数据训练神经网络,迭代地获取新的核心数据,直至无法获取新的核心数据,或不存在核心数据之外的待清洗数据,完成数据清洗。通过本申请的技术方案,能够准确评估每一个待清洗数据的训练效果,提高数据清洗的准确性。
技术关键词
数据清洗方法
数据训练神经网络
核心
神经网络模型
降维算法
有效性
邻域
数据处理技术
密度
数值
参数
基准
编码
图像
系统为您推荐了相关专利信息
初始聚类中心
画像构建方法
构建用户画像
对象
因子
地址规划方法
斯皮尔曼等级相关系数
聚类算法
通信基站
数据融合技术
长短期记忆网络
聚类算法
数据
交易特征
特征选择方法
交通疏导系统
图像识别技术
交通诱导屏
图像处理单元
图像采集模块