摘要
本发明涉及数据筛选领域,具体涉及一种样本集的划分方法、系统、设备及介质,包括:获取样本集;根据样本集中样本的数量,确定至少一个自适应分群基数;对每个自适应分群基数:根据数据相似性将样本集划分为k个数据子集;按照预设比例,从每个数据子集中选取对应数量的目标样本;组合所有目标样本,得到自适应分群基数对应的筛选子集;计算每个筛选子集与样本集的分布匹配度,筛选分布匹配度最低的筛选子集作为测试集,剩余样本作为训练集。本发明提取的测试集与训练集在特征分布上与原始样本集高度一致,从而提高了机器学习模型性能评估的准确性和可靠性,降低了过拟合和欠拟合的风险,提升了模型的泛化能力和实用价值。
技术关键词
样本
分群
划分方法
数据
评估算法
训练集
划分系统
机器学习模型
处理器
组合模块
分块
存储器
电子设备
介质
风险