摘要
本发明涉及数据去重技术领域,公开了一种流域业务数据去重方法、装置、计算机设备及介质,该方法包括:获取流域业务数据对应的多表数据库,对多表数据库的表头属性进行拼接,得到属性文档;对属性文档和多表数据库中的数据表进行融合特征选择,得到每个数据表对应的目标属性组合;对每个数据表对应的目标属性组合进行哈希值计算,得到每个数据表对应的哈希值分布,并将哈希值分布近似处理为正态分布;获取待处理流域业务数据,利用正态分布对待处理流域业务数据进行哈希判定,基于哈希判定结果进行数据去重,得到流域业务数据去重结果。本发明极大地提升了流域业务数据的去重效率,消除了冗余数据,节省了系统存储开销。
技术关键词
数据去重方法
特征选择
关键词提取算法
数据去重装置
表头
数据去重技术
计算机设备
链表
横轴
布隆过滤器
条目
可读存储介质
指令
计算机程序产品
拼接模块
存储器
处理器
系统为您推荐了相关专利信息
损失评估方法
光谱反射率特征
遥感影像数据
高分遥感影像
通道注意力机制
系统监控
数据分布
子模块
机器学习算法
企业绩效管理
语义分割方法
特征选择
ReLU函数
颜色模型
图像
水平集函数
材料微结构
结构优化方法
曲面
结构化网格