摘要
本发明提供了基于上下文多流关联的代理加密流量识别方法,包括:收集混合流量样本,并进行数据流提取;对每条数据流进行双标签标定与统计特征提取;通过随机森林算法为每个数据流生成指纹向量,计算目标网站匹配指标;基于上下文语义识别的数据流时间关系刻画:基于多元特征分析提取的数据流,计算数据流的网站指示系数;生成序列化指纹;通过数据流的网站指示系数计算序列化指纹的重要性分数;根据得到数据流的指纹向量及目标网站匹配指标、数据流的序列化指纹及重要性分数完成随机森林分类模型的迭代训练,通过训练好的模型即可完成流量识别。本发明可以在不直接破解代理加密流量的条件下,实现基于机器学习的上下文多流关联流量识别。
技术关键词
加密流量识别方法
随机森林
统计特征提取
特征分析提取
双标签
样本
指标
网站指纹
语义
序列
算法
关系
网址
标识
定义
密度