摘要
本发明公开一种融合URL字符和HTML内容语义的钓鱼网页检测方法,基于多尺度卷积策略的URL字符级局部特征精细提取,利用不同尺寸卷积核的CNN并行处理URL字符串,提取不同粒度的特征,从而全面捕捉数据的多层次信息,增强模型对URL潜在威胁的敏感;基于级联密集连接CNN架构的HTML文本词级特征提取。通过堆叠多个卷积层并在卷积块之间建立密集连接,提取更深层次和细粒度的语义特征;通过全连接层将URL特征字符和HTML特征进行融合,并计算出相应的概率以判定其是否为钓鱼网页。本发明充分利用深度学习算法的优势,整合钓鱼网页的URL字符与HTML内容的特征,形成更为全面的语义表示,极大地提高了钓鱼网页检测的识别率。
技术关键词
钓鱼网页检测方法
字符
高维向量空间
文本
语义特征
网络模块
深度特征提取
深度学习算法
解析网页
级联
样本
数据
表达式
融合特征
脚本
多层次
索引
系统为您推荐了相关专利信息
图像生成模型
文本生成模型
多媒体
音频
生成指令
语音识别模型
多头注意力机制
文本
语音识别方法
大规模语音数据