摘要
本发明涉及基于机器学习模型的大规模数据存储去重优化方法。构建基于哈希函数的数据索引,将数据映射到固定大小的哈希表中,并使用局部敏感哈希LSH技术对相似数据进行索引;设计基于数据特征的分区策略,将相似数据分配到相同或相近的分区中,控制减少跨分区的比较操作,并根据数据的变化调整分区方案;结合规则引擎与多层次机器学习模型,通过规则引擎基于预定义的规则进行初步去重筛选,将筛选后的数据输入到机器学习模型中,进行相似度计算和去重处理;然后设计多模态相似度计算方法,使用深度学习模型学习数据的特征表示,计算多模态相似度;采用启发式优化算法优化相似度计算的参数,将数据表示为图结构,通过图的匹配和聚类进行去重处理。
技术关键词
机器学习模型
高维特征向量
数据存储
局部敏感哈希
指纹
多模态
度计算方法
分区策略
深度神经网络
集成学习方法
深度学习模型
参数
Siamese网络
模态特征
编码器
数据项
多层次
非线性
系统为您推荐了相关专利信息
机器学习模型
序列
对象
计算机可执行指令
信息处理方法
筛选方法
表达式
电子设备
LDA算法
SVD算法
煤矿地质三维模型
地质数据处理
坐标
可视化模块
密度
一元线性回归模型
粗大误差
判断准则
异常数据
频率
控制策略
调节阀
健康管理技术
化工
深度神经网络