摘要
本发明公开了一种跨网站多策略的公司信息采集处理方法分析公司信息的组成部分并构建通用网络爬虫框架;针对基本信息,构建通用网络爬虫框架,包括通用网站爬虫和WIKI网络爬虫,分别在网页结构未知的环境和WIKI网站进行数据爬取;针对Twitter文章信息、承包合同信息、关联网络信息、公司人数与下辖单位信息,构建主题爬虫,包括Twitter网络爬虫、fpds网络爬虫、Whois网络爬虫、LinkedIn网络爬虫这四个主题网络爬虫,分别对Twitter、联邦采购数据网站、Whois、LinkedIn进行数据爬取;对WIKI网络爬虫、LinkedIn网络爬虫、通用网站爬虫获取的地址信息进行数据融合;进行数据清洗并保存。本发明能够实现高效、稳定且准确的公司信息爬取。
技术关键词
多策略
主题网络爬虫
爬虫框架
网页结构
主题爬虫
数据
文章
自动化测试工具
模糊匹配算法
广度优先搜索
模拟浏览器
页面
格式
分析网页
处理器
符号
标签
计算机设备
系统为您推荐了相关专利信息
自动人工智能
项目推荐方法
层级
专业
强化学习模型
传感器节点
分类策略
覆盖率
多策略
大规模网络环境
答疑方法
构建知识图谱
结构化查询语句
答案
实体
无人机编队
多无人机协同
多策略融合
规划
多无人机系统
模型分析方法
自然语言
语义分析技术
多策略
答案