摘要
本发明提供一种高相似性重复数据清洗方法、系统、设备及介质,涉及高相似性重复数据清洗技术领域,包括读取文本数据集;对文本数据集进行哈希化处理与集群划分,得到相似重复数据集群和非重复数据集群;执行查重操作和去重操作,得到重复数据集和去重后数据集;对重复数据集和去重后数据集分别进行抽样核查,纠正误判数据并动态优化哈希函数的参数。本发明可准确识别文本数据集中地高相似性重复数据,实现大规模文本数据集的高效清洗,同时可以实现动态优化,适应性强。
技术关键词
数据清洗方法
集群
数据项
大规模文本数据
停用词表
数据清洗系统
文本数据提取
数据清洗技术
迭代优化算法
模运算
字节流
处理器
动态
参数
介质
代表
序列
数据存储
系统为您推荐了相关专利信息
高速公路交通事故
网络搭建方法
关键词
建立索引关系
节点
集群划分方法
节点
微电网
实时数据处理系统
智能传感器网络
虚拟设备
服务器
化操作系统
网络连接方法
大语言模型