摘要
本发明涉及一种互联网大数据提取方法、装置、设备及存储介质,包括以下步骤,对互联网数据源进行分布式爬虫采集,获得原始网络数据,并将其转换为结构化数据矩阵。通过对矩阵进行多层次语义解析,构建语义特征图谱,并进行主题分割与归类,形成主题域知识树。进一步挖掘知识树中的关联规则,构建隐含知识网络。基于该网络对查询条件进行语义分解与扩展,生成扩展查询数据,并与知识网络进行相似度匹配,获得候选数据集。最后对候选数据进行多因素排序与提取,输出目标数据,解决了在二手车市场中,由于数据来源广泛及语义模糊,导致现有系统在进行价格预测及维修成本分析时存在较大的偏差的技术问题。
技术关键词
互联网大数据
主题
语义特征
分布式爬虫
网络
查询意图
矩阵
图谱
紧凑特征
语义结构
多维度特征提取
张量分解技术
多分辨率
交互特征
时序关联分析
异构
多层次
层级