摘要
本发明公开了一种基于CNN+BERT的恶意网址检测分类模型的训练及检测方法,涉及互联网网络安全技术领域,基于CNN+BERT的恶意网址检测分类模型的训练方法包括:收集网页数据构建数据集;利用词向量模型对所有URL的词元进行处理,构建URL的字符词典,得到各个URL的编码向量即句向量;将URL句向量通过CNN网络进行自适应特征提取;对数据集中的网页文本进行编码,获取文本向量,将文本向量通过BERT模型获取网页文本特征向量;将URL特征向量与网页文本特征向量进行拼接获取网址的预测输出,将URL视作文本信息进行特征提取,对URL的语义挖掘提升了精准性,结合了CNN和BERT,提取出更加丰富和有效的特征表示,提高了网址检测的准确率。
技术关键词
检测分类模型
文本特征向量
网址
BERT模型
字符
词典
词向量模型
编码向量
数据
分词
矩阵
编码器
索引
参数可调
标签
滑动窗口
网络
系统为您推荐了相关专利信息
结构风险评估
数字仿真模型
施工管理方法
三维仿真模型
风险评估值
生成方法
指数衰减函数
计算机程序指令
输入接口
前端模块
分词
生成方法
有效性
生成评论文本
BERT模型
学科知识图谱
光学字符识别技术
教学方法
数据
切片