摘要
本申请提供的一种预训练数据的去重方法、电子设备、存储介质及程序产品,该方法包括:根据预训练数据集,获取多个待处理的预训练数据;根据预训练数据的总量,确定对应的并行处理进程数,并根据并行处理进程数和预训练数据的总量,将预训练数据划分为多个数据批次;根据并行处理策略,为每个处理进程分配对应的数据批次,并控制每个处理进程,对每个数据批次的预训练数据进行双重去重处理,获取处理后的目标数据;在确定每个处理进程均完成双重去重处理后,将每个数据批次内对应的目标数据进行汇总,获取去重后的目标数据集。该方法用以达到提高预训练数据去重效率的技术效果。
技术关键词
数据
文本去重
字符
重复序列
计算机执行指令
进程
标记
局部敏感哈希算法
分词
词语
比率
处理器
可读存储介质
索引
总量
指示系统
计算机程序产品