一种基于半监督聚类与动态重采样的短文本不平衡分类方法

AITNT
正文
推荐专利
一种基于半监督聚类与动态重采样的短文本不平衡分类方法
申请号:CN202510417867
申请日期:2025-04-02
公开号:CN120086658A
公开日期:2025-06-03
类型:发明专利
摘要
本发明公开了一种基于半监督聚类与动态重采样的短文本不平衡分类方法,包括以下步骤:S1、对原始短文本数据进行清洗与特征提取,去除缺失率超过20%的特征,并对剩余文本进行向量化表示,构建初始特征空间;S2、在“紧凑簇”假设下,基于标记数据的引导,采用半监督层次聚类算法迭代分割多数类与少数类样本,生成若干不连续聚类,揭示类间与类内不平衡分布特征;S3、基于聚类结果,对多数类样本进行动态欠采样;S4、基于聚类结果,对少数类未标记数据进行动态过采样;本发明提出了一种将半监督聚类引入到短文本不平衡分类中进行混合采样的方法,通过对标记数据和未标记数据进行聚类,有效地捕捉了短文本数据的基本分布特征,便于后续的采样。
技术关键词
分类方法 样本 标记 层次聚类算法 动态 分布特征 数据 半监督聚类 联合损失函数 平衡特征 标签 离群点 文本 训练集 噪声 数值 参数
系统为您推荐了相关专利信息
1
一种基于上下文表征对比学习的射频指纹提取方法及系统
射频指纹提取 符号 短时傅里叶变换 样本 离散余弦变换
2
一种教育资源推荐方法及系统
教育资源推荐方法 结构化数据结构 兴趣特征向量 混合存储结构 动态索引结构
3
基于目标区域局部加强的台风全路径模拟方法
路径模拟方法 基础设施系统 XGBoost模型 样本 强度
4
电力标准构建方法及设备
关键词 数据存储 三维模型 对象 生成电力
5
一种室内低浓度臭氧动态消毒的自适应闭环控制系统及方法
闭环控制系统 臭氧浓度传感器 臭氧发生器 涡轮风扇 动态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号