一种面向机器学习的少数类样本增强方法、系统、设备及存储介质

AITNT
正文
推荐专利
一种面向机器学习的少数类样本增强方法、系统、设备及存储介质
申请号:CN202511541848
申请日期:2025-10-27
公开号:CN121009954A
公开日期:2025-11-25
类型:发明专利
摘要
本发明属于机器学习领域,公开了一种面向机器学习的少数类样本增强方法、系统、设备及存储介质,CTGAN通过对抗训练精确拟合少数类主体数据的联合分布特性,保障生成样本的统计合理性;大语言模型突破传统插值限制,探索潜在长尾特征组合,弥补分布拟合的覆盖盲区。二者互补生成后,硬约束模块强制校验特征合法性、类型匹配及跨列逻辑一致性,消除无效样本;统一评分器以原始数据集锚定真实分布,通过阈值筛选保留高置信样本,最后经全列去重确保样本独特性。采用本方法显著提升了合成样本的多样性与有效性,突破单一生成技术的瓶颈;系统化的质量管控流程实现规模、质量与多样性三者的动态平衡,使增强样本更贴合下游分类任务需求。
技术关键词
样本 大语言模型 中间层 生成规则 数值 校验特征 逻辑 模板 多层感知器 可读存储介质 存储计算机程序 生成技术 线性单元 数据采集模块 随机噪声 模式 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号