摘要
本发明涉及数据采集技术领域,发明了一种基于Python的招投标信息采集系统、方法及介质,包括网页采集模块,用于对招投标网站进行深层聚焦数据采集以及迭代网页提取,得到招投标网页信息;视觉采集模块,用于对招投标文件进行自适应图像采集以及版面文本提取,得到招投标文件信息;结构分析模块,用于对招投标网页信息以及招投标文件信息进行结构提取以及属性结构标注,得到标注招投标信息;语义分析模块,用于对标注招投标信息进行词法分析以及依存语义分析,得到招投标语义信息;合并存储模块,用于对招投标语义信息进行孪生文本标注以及信息分类存储,得到存储招投标信息。本发明可以提高招投标信息采集时的效率。
技术关键词
招投标信息采集系统
页面
图像
语义
文本
词特征
分析模块
主题特征
滤波算法
信息采集方法
段落结构
存储模块
坐标
文件特征
符号
数据采集技术
纵轴
表格
横轴