预训练数据的去重方法、电子设备、存储介质及程序产品

AITNT
正文
推荐专利
预训练数据的去重方法、电子设备、存储介质及程序产品
申请号:CN202411391126
申请日期:2024-09-30
公开号:CN119250054A
公开日期:2025-01-03
类型:发明专利
摘要
本申请提供的一种预训练数据的去重方法、电子设备、存储介质及程序产品,该方法包括:根据预训练数据集,获取多个待处理的预训练数据;根据预训练数据的总量,确定对应的并行处理进程数,并根据并行处理进程数和预训练数据的总量,将预训练数据划分为多个数据批次;根据并行处理策略,为每个处理进程分配对应的数据批次,并控制每个处理进程,对每个数据批次的预训练数据进行双重去重处理,获取处理后的目标数据;在确定每个处理进程均完成双重去重处理后,将每个数据批次内对应的目标数据进行汇总,获取去重后的目标数据集。该方法用以达到提高预训练数据去重效率的技术效果。
技术关键词
数据 文本去重 字符 重复序列 计算机执行指令 进程 标记 局部敏感哈希算法 分词 词语 比率 处理器 可读存储介质 索引 总量 指示系统 计算机程序产品
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号