摘要
本发明属于机器学习领域,公开了一种面向机器学习的少数类样本增强方法、系统、设备及存储介质,CTGAN通过对抗训练精确拟合少数类主体数据的联合分布特性,保障生成样本的统计合理性;大语言模型突破传统插值限制,探索潜在长尾特征组合,弥补分布拟合的覆盖盲区。二者互补生成后,硬约束模块强制校验特征合法性、类型匹配及跨列逻辑一致性,消除无效样本;统一评分器以原始数据集锚定真实分布,通过阈值筛选保留高置信样本,最后经全列去重确保样本独特性。采用本方法显著提升了合成样本的多样性与有效性,突破单一生成技术的瓶颈;系统化的质量管控流程实现规模、质量与多样性三者的动态平衡,使增强样本更贴合下游分类任务需求。
技术关键词
样本
大语言模型
中间层
生成规则
数值
校验特征
逻辑
模板
多层感知器
可读存储介质
存储计算机程序
生成技术
线性单元
数据采集模块
随机噪声
模式
处理器