摘要
本发明公开了一种基于半监督聚类的未知协议识别方法和系统,该方法包括:采集不同协议的已标记和未标记的流量数据并提取流统计特征向量和指纹特征向量;根据流相关性利用已标记和未标记数据构建约束信息,得到必连约束集合、勿连约束集合、等价类集合;利用必连约束集合与勿连约束集合计算每个流统计特征的拉普拉斯分数进行特征选择,并将特征选择后的流统计特征与指纹特征融合得到单流特征向量;以等价类集合、勿连约束信息为指导,将已标记和未标记的单流混合进行半监督聚类;利用聚类后的流量簇构造分类器。本发明通过特征选择和特征融合能够更准确地表征网络流量的多维特性。在数据稀缺的情况下,通过构建约束信息挖掘未标记数据中的潜在信息,提高了对未知协议流量的识别效果,减少了对标注数据的依赖。
技术关键词
协议识别方法
半监督聚类
样本
统计特征
特征选择
标记
拉普拉斯
指纹特征
初始聚类中心
矩阵
非易失性存储设备
协议识别系统
近邻算法
数据
分类器构造
速率
分片
系统为您推荐了相关专利信息
网络数据监控方法
特征提取模型
网卡
进化优化算法
分类器模型
离子回旋共振质谱
有机质
塑料
支持向量回归
机器学习算法