摘要
本申请涉及一种基于规则数据驱动的数据清洗方法及数据清洗引擎,属于数据处理技术领域。数据清洗方法包括:接收多个异构业务系统的原始数据流;提取多源数据特征和跨系统字段关联特征,构建得到数据特征指纹;对数据特征指纹进行相似度匹配,筛选匹配度高于预设阈值的规则,得到候选规则集;将候选规则集转换为有向无环图;标记冲突规则对,得到冲突预警列表;在有向无环图中插入虚拟隔离层,生成路径标识表;根据有向无环图进行拓扑排序,生成规则执行序列并对原始数据流进行清洗处理;根据路径标识表分配数据执行通道;输出清洗完成的洁净数据流及包含规则执行路径的清洗日志。本申请能够高效准确地处理来自不同业务系统的数据。
技术关键词
数据清洗方法
有向无环图
节点
标识
规则集
队列
生成规则
序列
异构业务
列表
数据分布特征
标签
数据依赖关系
分支
字段
指纹
文本数据提取
语义向量
标记
系统为您推荐了相关专利信息
轨道
动态规划方法
天车
动态路径规划
局部路径规划
推理方法
多模态辅助
交互工具
辅助工具
绘图工具
螺钉通道
三维骨骼模型
规划
二维医学图像
可视化模块