摘要
本申请实施例提供的一种基于球聚类样本生成的自标记式半监督分类方法及装置,属于机器学习与数据挖掘技术领域。该方法包括对输入的至少一个有标记样本和多个无标记样本进行处理后输出包含紧凑球簇的球簇集合和所述紧凑球簇的质心集合;根据所述球簇集合、所述质心集合和参数生成合成有标记样本,所述参数用于表征每个所述紧凑球簇中合成样本的平均数量;利用所述合成有标记样本、所述有标记样本和所述无标记样本执行自标记方法以训练分类模型。本发明能够解决现有自标记方法受初始有标记样本的数量和分布的限制问题,以实现在有标记样本极少和无标记样本较多的类重叠半监督数据上训练有效分类模型。
技术关键词
样本
监督分类方法
训练分类模型
标记方法
数据挖掘技术
密度
参数
分类装置
插值法
元素
模块
矩阵
系统为您推荐了相关专利信息
图像增强模型
样本
输入多尺度
图像增强方法
语义特征提取
生成电子文档
商品特征
专家系统
编码规则
验证商品
加密流量识别方法
网络流分类
样本
序列
概念漂移检测方法
重构误差
预测模型训练方法
融合特征
车速预测方法
样本