基于Spark分布式计算的商品名余弦相似度匹配方法

AITNT
正文
推荐专利
基于Spark分布式计算的商品名余弦相似度匹配方法
申请号:CN202410817653
申请日期:2024-06-24
公开号:CN118643354A
公开日期:2024-09-13
类型:发明专利
摘要
本发明提供一种基于Spark分布式计算的商品名余弦相似度匹配方法,包括:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;通过客户端向Spark平台提交作业,转换为弹性分布式数据集DataFrame并划分为训练集和测试集,将训练集划分为倾斜数据集和不倾斜数据集;对于倾斜数据集,进行join自连接后在分区内采用传统算法计算相似度;对于不倾斜数据集计算相似度;通过Catalyst优化策略,最后将结果输出。本发明解决对商品名特征向量维度过高、空间复杂度高、不便于存储和计算等问题,以及根据分区策略和优化算法去除无效计算。
技术关键词
HDFS文件系统 分区策略 训练集 算法 平台 自定义函数 分词 字段 噪声数据 客户端 服务器 复杂度 物理 内存 文本 节点
系统为您推荐了相关专利信息
1
一种基于聚类算法的细粒度脑负荷确定方法及相关装置
电信号 聚类算法 独立成分分析 负荷 主成分分析法
2
一种基于时空特征增强的轻量级听觉注意检测方法及系统
听觉 深度时空特征 交叉注意力机制 多尺度 滑动窗口
3
一种智能家居数据处理系统、方法、装置、设备及介质
压缩算法 智能设备 设备状态数据 协议 消息
4
一种静电检测方法及便携式静电检测仪
静电检测方法 静电场强度 便携式静电 温度补偿系数 静电传感器
5
一种基于机械振动的故障检测方法、装置、设备及介质
故障检测方法 故障检测程序 信号 采集机械设备 多尺度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号