一种数据去重方法、装置及电子设备

AITNT
正文
推荐专利
一种数据去重方法、装置及电子设备
申请号:CN202411868324
申请日期:2024-12-18
公开号:CN119938655A
公开日期:2025-05-06
类型:发明专利
摘要
本申请提供了一种数据去重方法、装置及电子设备,该方法通过对训练大语言模型的各文本数据集合(即全局数据)采用多轮次分发局部去重策略进行局部去重处理,得到包含若干条目标样本数据的第一目标去重文本集合,即使在单机内存不足以支持全局数据去重处理的现实限制情况下,快速由内存较小的第一处理设备对全局数据进行多轮次的局部去重处理,充分提高了内存的利用率,降低了数据去重的数据量,有助于提高数据去重的处理效率。然后将该若干条目标样本数据确定为训练大语言模型的目标训练样本数据。如此,可有效减少大语言模型训练时无用重复数据的数据量,有助于保障大语言模型的训练效果以及训练效率。
技术关键词
大语言模型 训练样本数据 数据去重方法 分发策略 局部敏感哈希 数据输出模块 文本 算法 条带 数据去重装置 电子设备 数据获取模块 计算机 内存 处理器 指令 可读存储介质
系统为您推荐了相关专利信息
1
基于大语言模型的动态配置车载意图系统和控制方法
意图 大语言模型 列表 自然语言 系统模块
2
一种大语言模型的增量知识图生成系统及方法
语义 实体 大语言模型 三元组 关系
3
用于大语言模型的隐私数据保护方法、装置、介质及设备
特征提取网络 隐私数据保护方法 大语言模型 深度学习训练 样本
4
基于大模型技术的超高速光模块数字制造场景知识推理方法、装置、设备及介质
超高速光模块 自然语言转换 知识点 知识推理方法 构建知识图谱
5
业务配置方案生成方法、装置、计算机设备和存储介质
云网 业务配置数据 指令 参数 网元配置信息
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号