基于机器学习模型的大规模数据存储去重优化方法

正文

推荐专利

申请号：CN202411075734

申请日期：2024-08-07

公开号：CN119003504A

公开日期：2024-11-22

类型：发明专利

摘要

本发明涉及基于机器学习模型的大规模数据存储去重优化方法。构建基于哈希函数的数据索引，将数据映射到固定大小的哈希表中，并使用局部敏感哈希LSH技术对相似数据进行索引；设计基于数据特征的分区策略，将相似数据分配到相同或相近的分区中，控制减少跨分区的比较操作，并根据数据的变化调整分区方案；结合规则引擎与多层次机器学习模型，通过规则引擎基于预定义的规则进行初步去重筛选，将筛选后的数据输入到机器学习模型中，进行相似度计算和去重处理；然后设计多模态相似度计算方法，使用深度学习模型学习数据的特征表示，计算多模态相似度；采用启发式优化算法优化相似度计算的参数，将数据表示为图结构，通过图的匹配和聚类进行去重处理。

技术关键词

机器学习模型高维特征向量数据存储局部敏感哈希指纹多模态度计算方法分区策略深度神经网络集成学习方法深度学习模型参数 Siamese网络模态特征编码器数据项多层次非线性

系统为您推荐了相关专利信息

信息处理方法、装置、设备和存储介质

机器学习模型序列对象计算机可执行指令信息处理方法

一种基于文献数据的条件筛选方法及电子设备

筛选方法表达式电子设备 LDA算法 SVD算法

一种煤矿地质三维模型的构建方法及系统

煤矿地质三维模型地质数据处理坐标可视化模块密度

一种基于声波频率预测超声激发液滴体积的方法

一元线性回归模型粗大误差判断准则异常数据频率

一种氟化工多调节阀自动控制方法及系统

控制策略调节阀健康管理技术化工深度神经网络

基于机器学习模型的大规模数据存储去重优化方法

站点导航

APP 下载