摘要
本发明涉及一种基于自动化采集的油价数据实时入库方法,包括:实时动态确定目标网站的油价信息页面,并解析油价信息页面的页面编码格式,以及基于页面编码格式解析油价信息页面,并将油价信息页面转换为文档对象模型树;根据文档对象模型树,获取油价信息页面中的油价相关信息的原始文本内容,并对原始文本内容进行数据清洗,得到清洗后的数据;将清洗后的数据及其对应的采集时间的时间戳进行绑定,得到带有时间戳标记的油价数据;将带有时间戳标记的油价数据存储至数据库,相比于现有技术,其不仅能够提高入库效率,还能够有效降低数据存储错误率。
技术关键词
入库方法
文档对象模型
页面内容
数据存储
文本
页面视觉
标记
格式
表格
密度
指纹
编码
索引表
汽油
错误率
表达式
动态
字符
系统为您推荐了相关专利信息
未来需求预测方法
无监督学习
客户
需求预测程序
需求预测装置
临床检验数据
医学影像数据
医学知识图谱
电子病历
个性化特征