摘要
本发明公开了一种基于非监督学习的数据安全风险评估方法,首先针对用户行为画像、定向活动、信用分析等营销典型业务场景进行分析,得到全生命周期安全防护需求和相应的风险,根据风险因素分析、风险指标选取以及风险等级划分建立评价指标集。考虑到传统模糊综合评价法依赖专家打分的低效和局限,本发明采用了基于改进Transformer编码器的语义相似度技术,结合交互注意力机制,用以实现文本业务数据与风险评估要素的匹配评分,有效地为模糊综合法提供风险因素权向量。再利用引入CLT(中心极限定理)的K‑Means++算法优化其聚类中心的选取,避免随机选取初始中心点这一缺陷而导致的结果不稳定、不准确,最后根据欧式距离进行风险因素的聚类。本发明针对电力业务数据的风险评估采用引入CLT的K‑Means++聚类算法进行风险因素的聚类,对于聚类的不稳定性采用主客观结合计算权重进行加权欧氏距离的聚类方法,可以有效运用到电力业务数据的安全风险评估。
技术关键词
数据风险评估方法
非监督
电力业务数据
加权欧氏距离
语义特征
电力营销业务数据
样本
交互注意力
初始聚类中心
数据全生命周期
模糊综合评价法
代表
元素
场景化数据
模糊综合法