摘要
本发明公开了一种基于半监督聚类与动态重采样的短文本不平衡分类方法,包括以下步骤:S1、对原始短文本数据进行清洗与特征提取,去除缺失率超过20%的特征,并对剩余文本进行向量化表示,构建初始特征空间;S2、在“紧凑簇”假设下,基于标记数据的引导,采用半监督层次聚类算法迭代分割多数类与少数类样本,生成若干不连续聚类,揭示类间与类内不平衡分布特征;S3、基于聚类结果,对多数类样本进行动态欠采样;S4、基于聚类结果,对少数类未标记数据进行动态过采样;本发明提出了一种将半监督聚类引入到短文本不平衡分类中进行混合采样的方法,通过对标记数据和未标记数据进行聚类,有效地捕捉了短文本数据的基本分布特征,便于后续的采样。
技术关键词
分类方法
样本
标记
层次聚类算法
动态
分布特征
数据
半监督聚类
联合损失函数
平衡特征
标签
离群点
文本
训练集
噪声
数值
参数
系统为您推荐了相关专利信息
射频指纹提取
符号
短时傅里叶变换
样本
离散余弦变换
教育资源推荐方法
结构化数据结构
兴趣特征向量
混合存储结构
动态索引结构
路径模拟方法
基础设施系统
XGBoost模型
样本
强度
闭环控制系统
臭氧浓度传感器
臭氧发生器
涡轮风扇
动态