摘要
本发明公开了一种基于会话上下文的协议报文字段语义推理方法,收集多种网络环境下的流量和未知协议信息,通过分析同一时间段内的协议报文序列特征,利用字段取值、相同字段在不同报文间的关系以及报文内部不同字段的关系,使用基于自注意力机制的Sentence‑BERT模型对字段类型进行划分,针对不同协议中相同类型字段取值可能不同、字段值特征可能降低报文类型判断准确率的问题,利用不同协议在报文结构和字段内容变化上的相似性,分析相同字段值的变化规律,将语义推理问题转化为时间序列多分类问题,使用W‑GRU‑FCN模型来学习已知协议的会话数据,同时单独分析发送序列并与双向序列的分析结果综合,为部分字段提供更多特征进而提升分类精度,最终完成字段语言的分类。本发明提出的方法可以有效推断未知协议的报文字段语义。
技术关键词
推断方法
协议
报文
会话
分类网络
BERT模型
字段
标签
语义推理方法
数据
最佳聚类数目
序列特征
优化器
样本
输出特征
格式
更新网络参数