一种跨网站多策略的公司信息采集处理方法及系统

AITNT
正文
推荐专利
一种跨网站多策略的公司信息采集处理方法及系统
申请号:CN202411484253
申请日期:2024-10-23
公开号:CN119577223A
公开日期:2025-03-07
类型:发明专利
摘要
本发明公开了一种跨网站多策略的公司信息采集处理方法分析公司信息的组成部分并构建通用网络爬虫框架;针对基本信息,构建通用网络爬虫框架,包括通用网站爬虫和WIKI网络爬虫,分别在网页结构未知的环境和WIKI网站进行数据爬取;针对Twitter文章信息、承包合同信息、关联网络信息、公司人数与下辖单位信息,构建主题爬虫,包括Twitter网络爬虫、fpds网络爬虫、Whois网络爬虫、LinkedIn网络爬虫这四个主题网络爬虫,分别对Twitter、联邦采购数据网站、Whois、LinkedIn进行数据爬取;对WIKI网络爬虫、LinkedIn网络爬虫、通用网站爬虫获取的地址信息进行数据融合;进行数据清洗并保存。本发明能够实现高效、稳定且准确的公司信息爬取。
技术关键词
多策略 主题网络爬虫 爬虫框架 网页结构 主题爬虫 数据 文章 自动化测试工具 模糊匹配算法 广度优先搜索 模拟浏览器 页面 格式 分析网页 处理器 符号 标签 计算机设备
系统为您推荐了相关专利信息
1
一种应用于自动人工智能的项目推荐方法
自动人工智能 项目推荐方法 层级 专业 强化学习模型
2
基于多策略蝴蝶算法的无线传感器网络覆盖优化方法
传感器节点 分类策略 覆盖率 多策略 大规模网络环境
3
一种自动答疑方法、装置、设备及介质
答疑方法 构建知识图谱 结构化查询语句 答案 实体
4
一种纯方位无人机编队探测阵型规划方法
无人机编队 多无人机协同 多策略融合 规划 多无人机系统
5
一种基于多策略深度慢思考的医学大模型分析方法、系统及存储介质
模型分析方法 自然语言 语义分析技术 多策略 答案
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号