摘要
本发明公开了一种政务数据的分类治理方法及装置,其中,所述方法包括:对若干个数据源中的政务数据进行数据清洗处理;对该政务数据进行标准化处理;对标准化政务数据进行事项特征提取和热点关键词提取,获得事项特征信息和热点关键词;基于事项特征信息和热点关键词利用聚类算法对标准化政务数据进行分类,获得各类别的标准化政务数据;基于预设数据质量分析策略对各类别的标准化政务数据进行质量分析,利用二级决策树生成数据处理调整策略以对各类别的标准化政务数据进行调整;对该各类别的标准化政务数据进行数据整合,并将数据整合结果进行存储。本发明提高了政务数据分类治理的可靠性,使政务数据的分类治理能够达到更为理想的效果。
技术关键词
政务
二级决策树
关键词
分布式存储技术
热点
聚类算法
分词
策略
节点
分支
数据分类
ETL技术
分布式数据库
样本
指数
治理装置
哈希算法
键值