样本集的划分方法、系统、设备及介质

正文

推荐专利

样本集的划分方法、系统、设备及介质

申请号：CN202510708811

申请日期：2025-05-29

公开号：CN120744518A

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及数据筛选领域，具体涉及一种样本集的划分方法、系统、设备及介质，包括：获取样本集；根据样本集中样本的数量，确定至少一个自适应分群基数；对每个自适应分群基数：根据数据相似性将样本集划分为k个数据子集；按照预设比例，从每个数据子集中选取对应数量的目标样本；组合所有目标样本，得到自适应分群基数对应的筛选子集；计算每个筛选子集与样本集的分布匹配度，筛选分布匹配度最低的筛选子集作为测试集，剩余样本作为训练集。本发明提取的测试集与训练集在特征分布上与原始样本集高度一致，从而提高了机器学习模型性能评估的准确性和可靠性，降低了过拟合和欠拟合的风险，提升了模型的泛化能力和实用价值。

技术关键词

样本分群划分方法数据评估算法训练集划分系统机器学习模型处理器组合模块分块存储器电子设备介质风险

样本集的划分方法、系统、设备及介质

站点导航

APP 下载