一种数据去重方法、装置及电子设备

正文

推荐专利

一种数据去重方法、装置及电子设备

申请号：CN202411868324

申请日期：2024-12-18

公开号：CN119938655A

公开日期：2025-05-06

类型：发明专利

摘要

本申请提供了一种数据去重方法、装置及电子设备，该方法通过对训练大语言模型的各文本数据集合(即全局数据)采用多轮次分发局部去重策略进行局部去重处理，得到包含若干条目标样本数据的第一目标去重文本集合，即使在单机内存不足以支持全局数据去重处理的现实限制情况下，快速由内存较小的第一处理设备对全局数据进行多轮次的局部去重处理，充分提高了内存的利用率，降低了数据去重的数据量，有助于提高数据去重的处理效率。然后将该若干条目标样本数据确定为训练大语言模型的目标训练样本数据。如此，可有效减少大语言模型训练时无用重复数据的数据量，有助于保障大语言模型的训练效果以及训练效率。

技术关键词

大语言模型训练样本数据数据去重方法分发策略局部敏感哈希数据输出模块文本算法条带数据去重装置电子设备数据获取模块计算机内存处理器指令可读存储介质

系统为您推荐了相关专利信息

基于大语言模型的动态配置车载意图系统和控制方法

意图大语言模型列表自然语言系统模块

一种大语言模型的增量知识图生成系统及方法

语义实体大语言模型三元组关系

用于大语言模型的隐私数据保护方法、装置、介质及设备

特征提取网络隐私数据保护方法大语言模型深度学习训练样本

基于大模型技术的超高速光模块数字制造场景知识推理方法、装置、设备及介质

超高速光模块自然语言转换知识点知识推理方法构建知识图谱

业务配置方案生成方法、装置、计算机设备和存储介质

云网业务配置数据指令参数网元配置信息

一种数据去重方法、装置及电子设备

站点导航

APP 下载