摘要
本申请提供了一种数据去重方法、装置及电子设备,该方法通过对训练大语言模型的各文本数据集合(即全局数据)采用多轮次分发局部去重策略进行局部去重处理,得到包含若干条目标样本数据的第一目标去重文本集合,即使在单机内存不足以支持全局数据去重处理的现实限制情况下,快速由内存较小的第一处理设备对全局数据进行多轮次的局部去重处理,充分提高了内存的利用率,降低了数据去重的数据量,有助于提高数据去重的处理效率。然后将该若干条目标样本数据确定为训练大语言模型的目标训练样本数据。如此,可有效减少大语言模型训练时无用重复数据的数据量,有助于保障大语言模型的训练效果以及训练效率。
技术关键词
大语言模型
训练样本数据
数据去重方法
分发策略
局部敏感哈希
数据输出模块
文本
算法
条带
数据去重装置
电子设备
数据获取模块
计算机
内存
处理器
指令
可读存储介质
系统为您推荐了相关专利信息
特征提取网络
隐私数据保护方法
大语言模型
深度学习训练
样本
超高速光模块
自然语言转换
知识点
知识推理方法
构建知识图谱