摘要
本发明公开了一种基于爬虫技术的网页信息采集系统、方法、存储介质及设备,包括:利用爬虫策略器中的爬虫策略根据搜索任务抓取互联网中的URL序列的URL序列抓取器;设有爬虫画像宽表的URL管理器,将抓取URL序列过程中的关键信息记录到爬虫画像宽表中;用于根据爬虫画像宽表中记录的关键信息动态调整爬虫策略的爬虫策略调整器;用于从抓取的URL序列下载网页信息的网页下载器;用于解析下载的网页信息,通过星辰大模型去除重复的网页信息的网页解析器;用于存储去除重复的网页信息的数据存储器。本发明使得采集的网页信息具有覆盖范围广、质量高和重复度低的特性。
技术关键词
信息采集系统
爬虫技术
网页信息采集方法
网页解析器
序列
策略
画像
覆盖率
时效性
数据存储器
下载器
抓取器
语义向量
管理器
互联网
抓取网页
文本
动态
处理器