摘要
本发明公开了基于BERT‑CNN和分层注意力机制的恶意URL检测方法,包括以下步骤:S1、获取URL数据集,将URL数据集分为恶意URL、正常URL数据集,整理并分析数据特征;S2、通过对样本数据进行预处理,将数据集细化为训练集、测试集以及验证集,并对不平衡数据进行处理;S3、进行特征提取,使用BERT模型将文本转换为数值特征;S4、分别部署融合注意力机制和卷积神经网络的算法、融合注意力机制和门控循环单元的算法、融合注意力机制和长短时记忆网络算法模型,将处理过的样本数据输入模型进行训练;S5、通过评估指标对模型进行评估,判断模型是否能够准确识别恶意URL和正常URL。本发明能够解决传统模型处理URL数据时可能丢失重要局部特征,通过词级别注意力捕捉URL关键子词重要性以及句子级别注意力整合整个URL语义结构,通过动态权重分配降低噪声部分的注意力权重。
技术关键词
URL检测方法
分层注意力
融合注意力机制
分析数据特征
BERT模型
预测类别
门控循环单元
上下文语义信息
反向传播方法
算法模型
动态权重分配
文本
参数
语义结构
训练集
网络
系统为您推荐了相关专利信息
语义向量
商铺
多维特征向量
融合语义
多层感知机
跨模态检索方法
交叉注意力机制
文本编码器
图像编码器
教师