一种高相似性重复数据清洗方法、系统、设备及介质

正文

推荐专利

申请号：CN202510525538

申请日期：2025-04-25

公开号：CN120805880A

公开日期：2025-10-17

类型：发明专利

摘要

本发明提供一种高相似性重复数据清洗方法、系统、设备及介质，涉及高相似性重复数据清洗技术领域，包括读取文本数据集；对文本数据集进行哈希化处理与集群划分，得到相似重复数据集群和非重复数据集群；执行查重操作和去重操作，得到重复数据集和去重后数据集；对重复数据集和去重后数据集分别进行抽样核查，纠正误判数据并动态优化哈希函数的参数。本发明可准确识别文本数据集中地高相似性重复数据，实现大规模文本数据集的高效清洗，同时可以实现动态优化，适应性强。

技术关键词

数据清洗方法集群数据项大规模文本数据停用词表数据清洗系统文本数据提取数据清洗技术迭代优化算法模运算字节流处理器动态参数介质代表序列数据存储

系统为您推荐了相关专利信息

用于电商平台的数据人工智能运维关系系统及方法

记录数据集合电商数据人工智能平台身份

一种基于文本挖掘的高速公路交通事故致因网络搭建方法

高速公路交通事故网络搭建方法关键词建立索引关系节点

异常用户确定方法、设备、介质及程序产品

元素异常用户序列金融分布式算法

一种结合Dijkstra算法与AFK-MC2聚类算法的微电网集群划分方法

集群划分方法节点微电网实时数据处理系统智能传感器网络

网络连接方法、装置、设备、介质和程序产品

虚拟设备服务器化操作系统网络连接方法大语言模型

一种高相似性重复数据清洗方法、系统、设备及介质

站点导航

APP 下载