摘要
本发明涉及数据治理技术领域,公开了一种基于实时数仓技术的数据清洗方法、装置、设备及介质。该方法包括:基于实时数仓架构获取实时数据;对实时数据进行质量分析确定实时数据的数据质量分析结果,包括:至少一种数据质量问题;根据数据质量问题确定初始清洗规则;将从预设清洗数据集中获取的部分样本数据和从实时数据中获取的部分清洗数据作为目标数据;进行数据清洗,得到清洗后的目标数据;在确定清洗后的目标数据不满足预设评估指标时,对初始清洗规则进行调整,直至清洗后的目标数据满足预设评估指标,得到目标清洗规则,对实时数据进行数据清洗。本发明可以实时、及时的对数据进行清洗,并且提高了清洗规则的针对性、适用性、准确性。
技术关键词
清洗规则
实时数据
数据清洗方法
指标
处理单元
数据治理技术
数据清洗装置
可读存储介质
样本
模块
存储器
处理器
指令
计算机设备
关系
系统为您推荐了相关专利信息
喷雾干燥装置
抑噪电路
温度信号处理单元
在线检测模块
放大器
互动玩具
采集单元
青少年
虚拟现实训练
VR眼镜
报文
网络节点设备
拥塞控制方法
显式拥塞通知
拥塞标记
多媒体设备
寿命预测模型
历史运行数据
剩余使用寿命
日志
逻辑控制模块
逻辑处理单元
患者
SpringSecurity框架
Elasticsearch索引