摘要
本发明提供一种基于Spark分布式计算的商品名余弦相似度匹配方法,包括:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;通过客户端向Spark平台提交作业,转换为弹性分布式数据集DataFrame并划分为训练集和测试集,将训练集划分为倾斜数据集和不倾斜数据集;对于倾斜数据集,进行join自连接后在分区内采用传统算法计算相似度;对于不倾斜数据集计算相似度;通过Catalyst优化策略,最后将结果输出。本发明解决对商品名特征向量维度过高、空间复杂度高、不便于存储和计算等问题,以及根据分区策略和优化算法去除无效计算。
技术关键词
HDFS文件系统
分区策略
训练集
算法
平台
自定义函数
分词
字段
噪声数据
客户端
服务器
复杂度
物理
内存
文本
节点
系统为您推荐了相关专利信息
电信号
聚类算法
独立成分分析
负荷
主成分分析法
听觉
深度时空特征
交叉注意力机制
多尺度
滑动窗口
静电检测方法
静电场强度
便携式静电
温度补偿系数
静电传感器
故障检测方法
故障检测程序
信号
采集机械设备
多尺度