循环自动化数据采集方法及系统

AITNT
正文
推荐专利
循环自动化数据采集方法及系统
申请号:CN202510434655
申请日期:2025-04-08
公开号:CN120407898A
公开日期:2025-08-01
类型:发明专利
摘要
本申请提供一种循环自动化数据采集方法及系统,方法包括:形成入口URL集合;依据入口URL集合,基于DOM结构特征分析与语义关联度评估,以及TF‑I DF和Word2Vec的链接价值评分,形成高价值链接队列;依据高价值链接队列,获取页面内容,形成包含有效电话号码的页面队列;依据页面队列,运用自我注意的扩散模型进行时间序列插补,形成商户数据集;根据所述商户数据集,利用字段提取神经网络模型和电话号码分组识别模型进行字段信息提取和电话号码分组识别,生成结构化数据集;依据结构化数据集,执行多维数据指纹生成进行数据去重。本申请解决了传统自动化数据采集技术在复杂网页结构识别、数据时效性维护和数据质量保证方面的技术问题。
技术关键词
动态优先级队列 神经网络模型 生成结构化数据 结构特征分析 语义关联度 电话号码列表 页面内容 序列 自动化数据采集技术 自动化数据采集系统 Word2Vec模型 入口 字段 时效性 文本聚类算法 DOM树结构
系统为您推荐了相关专利信息
1
一种基于图神经网络的通信拓扑攻击路径预测方法及系统
攻击路径预测方法 神经网络模型 多通路 通信网络结构 全局结构信息
2
基于GA-BP-LSTM算法的动力电池SOC估算模型构建方法及装置、动力电池SOC估算方法、存储介质
二阶等效电路模型 LSTM算法 模型构建方法 BP神经网络模型 动力电池
3
一种水下结构裂缝智能量化方法及系统
水下结构 裂缝 神经网络模型 交互界面设计 直方图均衡化算法
4
一种基于BP神经网络的锂离子电池劣化分类方法
BP神经网络模型 电池充电数据 恒流充电阶段 恒压 动态
5
奖励模型的训练方法、大语言模型的优化方法及相关设备
样本 语义关联度 计算机可读指令 大语言模型 矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号