摘要
本发明涉及一种用于标讯信息采集的网络爬虫路径规划方法及装置,属于数据采集技术领域,其中,该用于标讯信息采集的网络爬虫路径规划方法包括:获取标讯信息发布网站的网页节点集合和超链接集合,所述超链接集合中包括任一网页节点到其他网页节点的链接;基于所述网页节点集合和超链接集合构建网页节点有向图,并基于所述网页节点有向图确定每一网页节点至标讯信息网页节点的最短路径;基于奖励函数对所述最短路径进行优化,得到每一网页节点至标讯信息网页节点的最佳爬取路径,所述奖励函数基于标讯信息的价值和爬取成本构建。本发明使得网络爬虫能够在采集标讯信息时兼顾效率与成本,提高了网络爬虫的性能。
技术关键词
路径规划方法
节点
爬虫
网络
路径规划设备
路径规划装置
数据采集技术
存储器
程序
处理器
日期
可读存储介质
计算机
表达式
模块
频率
指令
因子
算法
周期