摘要
本发明提供了一种大数据处理方法、系统及存储介质,属于大数据处理与分析技术领域。所述方法包括:获取原始数据并通过数据类型识别模块进行分类,生成数据类型标签序列;基于所述数据类型标签序列,对原始数据进行初步清洗,形成初步清洗后的数据集;基于初步清洗后的数据集,采用多维度数据质量评估模型,生成数据质量评分序列;根据所述数据质量评分序列,识别异常值和噪声,并进行修复,生成质量评估后的修复数据集;基于所述修复数据集,执行多源数据融合与去重操作,形成去重后的融合数据集。本发明提升了科创大数据的质量和准确性,实现了高效的数据处理和统一存储,适用于复杂多源数据的处理场景。
技术关键词
大数据处理方法
数据输出接口
缺失值预测方法
填补算法
序列
大数据处理系统
优化系统参数
数据项
识别模块
噪声数据
数据格式
标签
机器学习算法
去噪算法
数据存储模块
误差模型
分类规则
数据采集模块
系统为您推荐了相关专利信息
故障监测方法
序列
滑动窗口
动态时间弯曲距离
计算机程序指令
自动化构建方法
钻孔
序列
非暂态计算机可读存储介质
三维实体模型