摘要
本申请提供一种循环自动化数据采集方法及系统,方法包括:形成入口URL集合;依据入口URL集合,基于DOM结构特征分析与语义关联度评估,以及TF‑I DF和Word2Vec的链接价值评分,形成高价值链接队列;依据高价值链接队列,获取页面内容,形成包含有效电话号码的页面队列;依据页面队列,运用自我注意的扩散模型进行时间序列插补,形成商户数据集;根据所述商户数据集,利用字段提取神经网络模型和电话号码分组识别模型进行字段信息提取和电话号码分组识别,生成结构化数据集;依据结构化数据集,执行多维数据指纹生成进行数据去重。本申请解决了传统自动化数据采集技术在复杂网页结构识别、数据时效性维护和数据质量保证方面的技术问题。
技术关键词
动态优先级队列
神经网络模型
生成结构化数据
结构特征分析
语义关联度
电话号码列表
页面内容
序列
自动化数据采集技术
自动化数据采集系统
Word2Vec模型
入口
字段
时效性
文本聚类算法
DOM树结构
系统为您推荐了相关专利信息
攻击路径预测方法
神经网络模型
多通路
通信网络结构
全局结构信息
二阶等效电路模型
LSTM算法
模型构建方法
BP神经网络模型
动力电池
水下结构
裂缝
神经网络模型
交互界面设计
直方图均衡化算法
BP神经网络模型
电池充电数据
恒流充电阶段
恒压
动态
样本
语义关联度
计算机可读指令
大语言模型
矩阵