摘要
本发明涉及网络安全技术领域,特别涉及一种基于大模型对抗恶意蜘蛛池的方法,其中,方法包括:基于爬虫在当前工作周期下返回的当前网页得到当前网页数据包的所有长尾关键词,输入预先训练的语义大模型得到当前网页数据包的所有目标关键词,由此检测当前网页是否满足预设相似条件,在满足预设相似条件的情况下,判定爬虫处于恶意蜘蛛池,并停止爬虫在当前网页的爬取。本发明实施例可以利用预训练大模型提取当前页面所有长尾关键词的对应的目标关键词,并构建网页特征向量,检测当前网页和先前网页的关键词相似程度,从而精准识别长尾关键词,以判断未知网页的相似性,快速诊断困入蜘蛛池的爬虫,保障了网络搜索的高效性和安全性,更加实用。
技术关键词
长尾关键词
语义
爬虫
正确率
历史页面
标签
数据
网络安全技术
切割模块
计算机程序产品
处理器
工作周期
生成用户
识别模块
可读存储介质
文本
系统为您推荐了相关专利信息
文本提取方法
大语言模型
重构策略
干扰特征
识别策略
注意力机制
特征提取模块
深度强化学习
卷积模块
场景
语音音频数据
智能对话控制方法
智能外呼机器人
音频特征数据
语音情感识别模型