一种应用于AI语言大模型的数据集去重方法

正文

推荐专利

申请号：CN202411608976

申请日期：2024-11-12

公开号：CN119557560A

公开日期：2025-03-04

类型：发明专利

摘要

本发明公开了一种应用于AI语言大模型的数据集去重方法，包括以下步骤：获取用于训练AI语言大模型的数据集中的文本数据，并进行预处理，获得预处理后的文本数据；对预处理后的文本数据进行文本特征判断，确定所述文本数据的数据类型；所述数据类型包括：预训练数据集、问答数据集和偏好数据集；对确定数据类型的文本数据进行关键字统一及标准化字段映射，并进行对应的数据去重；所述数据去重包括：预训练数据去重、问答数据去重和偏好数据去重。该方法通过高效的预处理、特征判断和关键字统一映射，并针对不同数据类型选择对应的数据去重，其有效提升了AI语言大模型训练数据集的质量，进一步增强了AI语言大模型对自然语言的处理能力。

技术关键词

数据元素关键字智能文档分块算法链表结构标识符节点动态规划算法语义标志中文文本格式字段滑动窗口自然语言字符索引关键词

系统为您推荐了相关专利信息

一种吐丝机拖尾异常识别方法、装置、设备及介质

异常识别方法训练样本数据吐丝机线材深度神经网络

一种基于区块链的人工智能模型训练方法及系统

节点人工智能模型训练机制训练人工智能模型组织

一种基于多源信息的农业数据交互方法及平台

数据交互方法数据交互平台计算中心趋势预测模型动态

一种基于混合区块链架构的供应链协同平台及数据互通方法

区块链架构数据互通方法需求预测模型智能合约引擎供应链管理系统

一种基于数据融合的换流站阀厅智能监控方法、系统

智能监控方法换流站阀厅设备融合特征故障诊断模型多模态数据融合

一种应用于AI语言大模型的数据集去重方法

站点导航

APP 下载