一种高相似性重复数据清洗方法、系统、设备及介质

AITNT
正文
推荐专利
一种高相似性重复数据清洗方法、系统、设备及介质
申请号:CN202510525538
申请日期:2025-04-25
公开号:CN120805880A
公开日期:2025-10-17
类型:发明专利
摘要
本发明提供一种高相似性重复数据清洗方法、系统、设备及介质,涉及高相似性重复数据清洗技术领域,包括读取文本数据集;对文本数据集进行哈希化处理与集群划分,得到相似重复数据集群和非重复数据集群;执行查重操作和去重操作,得到重复数据集和去重后数据集;对重复数据集和去重后数据集分别进行抽样核查,纠正误判数据并动态优化哈希函数的参数。本发明可准确识别文本数据集中地高相似性重复数据,实现大规模文本数据集的高效清洗,同时可以实现动态优化,适应性强。
技术关键词
数据清洗方法 集群 数据项 大规模文本数据 停用词表 数据清洗系统 文本数据提取 数据清洗技术 迭代优化算法 模运算 字节流 处理器 动态 参数 介质 代表 序列 数据存储
系统为您推荐了相关专利信息
1
用于电商平台的数据人工智能运维关系系统及方法
记录数据集合 电商 数据人工智能 平台 身份
2
一种基于文本挖掘的高速公路交通事故致因网络搭建方法
高速公路交通事故 网络搭建方法 关键词 建立索引关系 节点
3
异常用户确定方法、设备、介质及程序产品
元素 异常用户 序列 金融 分布式算法
4
一种结合Dijkstra算法与AFK-MC2聚类算法的微电网集群划分方法
集群划分方法 节点 微电网 实时数据处理系统 智能传感器网络
5
网络连接方法、装置、设备、介质和程序产品
虚拟设备 服务器 化操作系统 网络连接方法 大语言模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号