摘要
本发明公开了一种网页商户信息智能采集和解析的方法及系统,通过智能网页抓取、智能字段识别、地址信息精确解析、智能商户分组和自动页面发现五个主要步骤实现商户信息的自动化采集。本发明摒弃了传统基于规则的提取方法,利用上下文语义分析和模式识别技术自动识别网页中的商户名称、电话号码和地址等信息,通过动态权重多维相似度计算方法实现字段的精准关联分组,并利用自动页面发现机制无需人工指定采集路径即可持续发现和采集商户信息。本发明突破了传统方法需针对不同网站编写特定规则、难以应对网页结构变化、无法处理多商户信息分组等技术瓶颈,适应各类网页结构变化,大幅提高了商户信息采集的自动化程度、准确性和效率。
技术关键词
语义关联度
字段
网页结构
文本段落
多维特征向量
自动化工具
链接特征
队列
卷积网络技术
页面
决策
关系
视觉
非线性
节点
模式识别技术
特征提取模型
半监督学习
域名特征
系统为您推荐了相关专利信息
数据仿真方法
智能驾驶功能
数据仿真装置
字段
电子设备
风电场发电功率
混合预测模型
XGBoost模型
电网频率偏差
依赖特征
竞品分析技术
竞品分析方法
关键词
账号
社交媒体平台