摘要
本发明提供一种基于机器学习和超粒方的文本分类方法,包括:获取预处理后的文本数据集,并利用特征提取模型提取文本数据的特征向量;根据文本数据集中所有文本数据的特征向量构建初始超粒方;计算初始超粒方的纯度,若初始超粒方的纯度低于设定阈值,则将初始超粒方分割为多个互不重叠的超粒方;对新生成的超粒方重复上述计算纯度和分割的操作,直到所有超粒方的纯度都符合条件;根据每个超粒方中文本数据的标签利用多数原则确定每个超粒方的标签;将待分类文本数据所属超粒方的标签作为待分类文本数据的分类结果进行输出。本发明能够适应文本数据的独特性质,提升文本分类的性能与效率,推动文本分析技术的发展。
技术关键词
文本分类方法
特征提取模型
数据
Word2Vec模型
计算机存储介质
标签
文本分析技术
词袋模型
特征值
处理器
样本
顶点
存储器
坐标
程序
系统为您推荐了相关专利信息
监督管理方法
观测装置
道路状态监测装置
校正
风险预测模型
数据访问控制方法
差分隐私
加密数据
数据访问权限
频率
超分辨率
图像超分辨
时间序列影像
生成对抗网络
生成高分辨率