摘要
本发明涉及图书查重技术领域,尤其是涉及一种适用于图书馆在线实时查重分析方法及系统,所述方法,包括获取图书管理系统的多源异构数据集,并对获取的数据集进行初步筛选;基于筛选后的数据集进行数据深度清洗与特征提取,根据提取后的特征向量进行实时查重,对查重结果进行关联规则挖掘,利用关联规则进行图书资源分类与评估,包括采用聚类算法对图书馆资源进行分类;根据关联规则挖掘和聚类分析的结果进行可视化输出。本发明利用轮廓系数确定最优k值,结合关联规则对聚类结果进行评估,能全面分析每个簇内图书资源的重复情况和利用率,针对不同情况提出合理的资源清理、优化或扩充建议,提高图书资源的配置效率与管理水平。
技术关键词
图书馆
缺失值填充方法
分析方法
图书管理系统
加权Apriori算法
在线
数据
资源
规则更新方法
轮廓系数
动态贝叶斯网络
可读存储介质
信息熵理论
时间片
布隆过滤器
终端设备