摘要
本发明实施例公开了一种基于规则引擎与机器学习的数据质量评估方法及系统,通过统一接口接入多源异构数据,采用分片机制与工作池并行处理海量数据,对结构化数据执行正则匹配、数值范围及枚举值等规则验证,对非结构化数据实施K‑means聚类异常检测和自编码器特征提取,创新性地融合规则引擎与机器学习双模分析,动态计算六维质量指标,最终聚合结果生成多格式可视化报告。本发明实施例解决传统评估维度单一、规则静态僵化、处理效率低下等问题,实测亿级数据评估时间缩短至30分钟内,异常检测准确率达92.5%,全面支持数据库、文件系统、云存储等12类数据源,满足ISO 8000国际标准对数据质量的多维监控需求。
技术关键词
多源异构数据源
并行处理框架
执行机器学习
时间衰减模型
深度特征提取
文件系统
分片
独立处理单元
时效性
唯一性
数据分析模块
报告
验证规则
融合规则
数据处理模块
编码器
评估系统
云存储
系统为您推荐了相关专利信息
可信接入方法
节点
特征提取方法
日志异常检测方法
融合用户反馈
焦化设备
信息融合技术
故障诊断方法
故障分类模型
高维特征向量
变换图像数据
训练图像数据
关键点
模型训练方法
描述符
称重管理系统
纹理
掩膜
互联网
金属资源回收技术
局部敏感哈希算法
网络拓扑
多层次
机器学习模型
深度学习模型