摘要
本发明涉及一种基于集成学习的文本分类方法,属于文本分类领域,该方法包括:收集样本并标记类别,构建数据集;对本文数据进行预处理;选取三个基分类器采用串联式训练方法,每个基分类器依赖于前一个基分类器在训练过程中产生的特征向量;对训练数据集进行训练,每个基分类器输出对应的置信度;在所述验证数据集上搜索适应于每个所述基分类器的权重,并采用粒子群优化PSO算法对权重进行计算和调节,利用最佳权重对置信度进行加权融合;根据融合后的置信度得到文本数据的分类结果,在得到的多个融合后的置信度中取置信度最高的类别为预测分类结果。本发明所述的方法可以实现特征的多维度提取和有效利用,具有更高的分类准确率和模型泛化能力。
技术关键词
文本分类方法
分类器
数据
神经网络结构
词典
分类准确率
词语
样本
算法
粒子
标签
分词
字符
编码
标记
纠错
线性
代表
关系
系统为您推荐了相关专利信息
电子病历后结构化
信息提取方法
大语言模型
电子病历数据
训练样本数据
基带芯片
终端接入管理方法
终端接入核心网
移动性管理
标识
根土复合体
数值模拟方法
路基边坡
简化植物
边坡模型
格拉斯曼流形
强干扰环境
张量分析理论
生成星座图
散射特征