摘要
本发明提供了一种基于互联网的地产数据清洗方法,属于数据清洗技术领域,包括:利用网络爬虫技术从多个互联网数据源采集地产数据,基于监控工具对采集过程进行监控生成监控数据,并向每个数据源下的每条地产信息设置传输集;分别统计每个房屋类型的类型分布;对地产信息进行异常识别,当异常类型与传输异常相关时,分析对应传输集的更新类型对相应地产信息进行异常更新;当异常类型与传输异常无关时,分析对应互联网数据源的输入行为,利用对应异常信息的标识字段搜索并识别相似信息,进行错误更新;基于所有类型分布以及每个互联网数据源的权威性,对所有房屋类型进行先后排布,进行格式转换及分类存储。有效提高了地产数据的质量和可用性。
技术关键词
数据清洗方法
互联网
标签
异常信息
房屋
监控工具
爬虫技术
数据清洗技术
字段
标识
元素
格式
矩阵
系统为您推荐了相关专利信息
标签体系
图谱
卷积神经网络模型
实体识别模型
自然语言文本
智能问答方法
实体知识库
模块
标签
数据库查询语句
入侵检测模型
服务器节点
神经网络模型
双向长短期记忆
注意力机制