摘要
本发明公开了一种应用于AI语言大模型的数据集去重方法,包括以下步骤:获取用于训练AI语言大模型的数据集中的文本数据,并进行预处理,获得预处理后的文本数据;对预处理后的文本数据进行文本特征判断,确定所述文本数据的数据类型;所述数据类型包括:预训练数据集、问答数据集和偏好数据集;对确定数据类型的文本数据进行关键字统一及标准化字段映射,并进行对应的数据去重;所述数据去重包括:预训练数据去重、问答数据去重和偏好数据去重。该方法通过高效的预处理、特征判断和关键字统一映射,并针对不同数据类型选择对应的数据去重,其有效提升了AI语言大模型训练数据集的质量,进一步增强了AI语言大模型对自然语言的处理能力。
技术关键词
数据
元素
关键字
智能文档
分块算法
链表结构
标识符
节点
动态规划算法
语义
标志
中文文本
格式
字段
滑动窗口
自然语言
字符
索引
关键词
系统为您推荐了相关专利信息
异常识别方法
训练样本数据
吐丝机
线材
深度神经网络
节点
人工智能模型训练
机制
训练人工智能模型
组织
数据交互方法
数据交互平台
计算中心
趋势预测模型
动态
区块链架构
数据互通方法
需求预测模型
智能合约引擎
供应链管理系统
智能监控方法
换流站阀厅设备
融合特征
故障诊断模型
多模态数据融合