摘要
本发明提供一种网站识别方法、装置、设备、介质和产品,该方法包括:获取目标网站的HTML文档;将目标网站的HTML文档输入网站识别模型,网站识别模型包括:DOM通道和文本通道;采用DOM通道根据HTML文档生成DOM树结构,基于DOM树结构对HTML文档进行特征提取,并对提取的特征进行编码,得到路径特征编码向量;采用文本通道提取HTML文档的网页文本语义特征并对网页文本语义特征进行编码,得到文本语义特征向量;将路径特征编码向量和文本语义特征向量进行加权融合,输出目标网站的诈骗网址识别概率。本发明中,结合页面结构与内容语义,通过跨模态动态融合实现文本与结构的协同分析,提升诈骗网站识别准确率。
技术关键词
DOM树结构
网站识别方法
路径特征
编码向量
文本
语义特征
网址
样本
节点
通道
网站识别装置
双向长短期记忆
融合特征
处理器
标签字典
可读存储介质
页面结构