基于Spark分布式计算的商品名余弦相似度匹配方法

正文

推荐专利

申请号：CN202410817653

申请日期：2024-06-24

公开号：CN118643354A

公开日期：2024-09-13

类型：发明专利

摘要

本发明提供一种基于Spark分布式计算的商品名余弦相似度匹配方法，包括：在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；通过客户端向Spark平台提交作业，转换为弹性分布式数据集DataFrame并划分为训练集和测试集，将训练集划分为倾斜数据集和不倾斜数据集；对于倾斜数据集，进行join自连接后在分区内采用传统算法计算相似度；对于不倾斜数据集计算相似度；通过Catalyst优化策略，最后将结果输出。本发明解决对商品名特征向量维度过高、空间复杂度高、不便于存储和计算等问题，以及根据分区策略和优化算法去除无效计算。

技术关键词

HDFS文件系统分区策略训练集算法平台自定义函数分词字段噪声数据客户端服务器复杂度物理内存文本节点

系统为您推荐了相关专利信息

一种基于聚类算法的细粒度脑负荷确定方法及相关装置

电信号聚类算法独立成分分析负荷主成分分析法

一种基于时空特征增强的轻量级听觉注意检测方法及系统

听觉深度时空特征交叉注意力机制多尺度滑动窗口

一种智能家居数据处理系统、方法、装置、设备及介质

压缩算法智能设备设备状态数据协议消息

一种静电检测方法及便携式静电检测仪

静电检测方法静电场强度便携式静电温度补偿系数静电传感器

一种基于机械振动的故障检测方法、装置、设备及介质

故障检测方法故障检测程序信号采集机械设备多尺度

基于Spark分布式计算的商品名余弦相似度匹配方法

站点导航

APP 下载