一种应用于AI语言大模型的数据集去重方法

AITNT
正文
推荐专利
一种应用于AI语言大模型的数据集去重方法
申请号:CN202411608976
申请日期:2024-11-12
公开号:CN119557560A
公开日期:2025-03-04
类型:发明专利
摘要
本发明公开了一种应用于AI语言大模型的数据集去重方法,包括以下步骤:获取用于训练AI语言大模型的数据集中的文本数据,并进行预处理,获得预处理后的文本数据;对预处理后的文本数据进行文本特征判断,确定所述文本数据的数据类型;所述数据类型包括:预训练数据集、问答数据集和偏好数据集;对确定数据类型的文本数据进行关键字统一及标准化字段映射,并进行对应的数据去重;所述数据去重包括:预训练数据去重、问答数据去重和偏好数据去重。该方法通过高效的预处理、特征判断和关键字统一映射,并针对不同数据类型选择对应的数据去重,其有效提升了AI语言大模型训练数据集的质量,进一步增强了AI语言大模型对自然语言的处理能力。
技术关键词
数据 元素 关键字 智能文档 分块算法 链表结构 标识符 节点 动态规划算法 语义 标志 中文文本 格式 字段 滑动窗口 自然语言 字符 索引 关键词
系统为您推荐了相关专利信息
1
一种吐丝机拖尾异常识别方法、装置、设备及介质
异常识别方法 训练样本数据 吐丝机 线材 深度神经网络
2
一种基于区块链的人工智能模型训练方法及系统
节点 人工智能模型训练 机制 训练人工智能模型 组织
3
一种基于多源信息的农业数据交互方法及平台
数据交互方法 数据交互平台 计算中心 趋势预测模型 动态
4
一种基于混合区块链架构的供应链协同平台及数据互通方法
区块链架构 数据互通方法 需求预测模型 智能合约引擎 供应链管理系统
5
一种基于数据融合的换流站阀厅智能监控方法、系统
智能监控方法 换流站阀厅设备 融合特征 故障诊断模型 多模态数据融合
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号