基于机器学习模型的大规模数据存储去重优化方法

AITNT
正文
推荐专利
基于机器学习模型的大规模数据存储去重优化方法
申请号:CN202411075734
申请日期:2024-08-07
公开号:CN119003504A
公开日期:2024-11-22
类型:发明专利
摘要
本发明涉及基于机器学习模型的大规模数据存储去重优化方法。构建基于哈希函数的数据索引,将数据映射到固定大小的哈希表中,并使用局部敏感哈希LSH技术对相似数据进行索引;设计基于数据特征的分区策略,将相似数据分配到相同或相近的分区中,控制减少跨分区的比较操作,并根据数据的变化调整分区方案;结合规则引擎与多层次机器学习模型,通过规则引擎基于预定义的规则进行初步去重筛选,将筛选后的数据输入到机器学习模型中,进行相似度计算和去重处理;然后设计多模态相似度计算方法,使用深度学习模型学习数据的特征表示,计算多模态相似度;采用启发式优化算法优化相似度计算的参数,将数据表示为图结构,通过图的匹配和聚类进行去重处理。
技术关键词
机器学习模型 高维特征向量 数据存储 局部敏感哈希 指纹 多模态 度计算方法 分区策略 深度神经网络 集成学习方法 深度学习模型 参数 Siamese网络 模态特征 编码器 数据项 多层次 非线性
系统为您推荐了相关专利信息
1
信息处理方法、装置、设备和存储介质
机器学习模型 序列 对象 计算机可执行指令 信息处理方法
2
一种基于文献数据的条件筛选方法及电子设备
筛选方法 表达式 电子设备 LDA算法 SVD算法
3
一种煤矿地质三维模型的构建方法及系统
煤矿地质三维模型 地质数据处理 坐标 可视化模块 密度
4
一种基于声波频率预测超声激发液滴体积的方法
一元线性回归模型 粗大误差 判断准则 异常数据 频率
5
一种氟化工多调节阀自动控制方法及系统
控制策略 调节阀 健康管理技术 化工 深度神经网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号