一种面向机器学习的少数类样本增强方法、系统、设备及存储介质

正文

推荐专利

申请号：CN202511541848

申请日期：2025-10-27

公开号：CN121009954A

公开日期：2025-11-25

类型：发明专利

摘要

本发明属于机器学习领域，公开了一种面向机器学习的少数类样本增强方法、系统、设备及存储介质，CTGAN通过对抗训练精确拟合少数类主体数据的联合分布特性，保障生成样本的统计合理性；大语言模型突破传统插值限制，探索潜在长尾特征组合，弥补分布拟合的覆盖盲区。二者互补生成后，硬约束模块强制校验特征合法性、类型匹配及跨列逻辑一致性，消除无效样本；统一评分器以原始数据集锚定真实分布，通过阈值筛选保留高置信样本，最后经全列去重确保样本独特性。采用本方法显著提升了合成样本的多样性与有效性，突破单一生成技术的瓶颈；系统化的质量管控流程实现规模、质量与多样性三者的动态平衡，使增强样本更贴合下游分类任务需求。

技术关键词

样本大语言模型中间层生成规则数值校验特征逻辑模板多层感知器可读存储介质存储计算机程序生成技术线性单元数据采集模块随机噪声模式处理器

一种面向机器学习的少数类样本增强方法、系统、设备及存储介质

站点导航

APP 下载