摘要
本发明公开了一种基于网页抓取和文本相似度的价格比较方法。本发明包括如下步骤:步骤1、构建Scraoy框架工具获取各网站信息,构建数据库;步骤2、对大规模文本数据进行向量化的处理,将文本数据转换为能够进行计算和分析的数字形式;步骤3、构建余弦相似度算法;步骤4、设计用户交互界面。本发明通过Scrapy动态爬取+TF‑ID向量化+余弦相似度匹配+交互式UI的技术组合,解决了传统价格比较工具存在的数据滞后、匹配不准、结果冗余三大痛点,并针对中国市场进行本土化优化。
技术关键词
大规模文本数据
非结构化文本
爬虫
页面结构
脚本
界面
人民币
仪表板
数据存储
框架
列表
格式
关键词
网址
算法
动态
电商
词语
系统为您推荐了相关专利信息
脚本
沙箱环境
自然语言
接入物联网平台
平板设备
结构化查询语言
管理工具
数据处理方法
脚本
字典