摘要
本发明公开了文本数据处理技术领域的一种基于改进Tri‑training算法的文本分类方法,包括如下步骤:文本预处理、文本特征选择和分类器训练;文本处理包括对所选文本数据进行标准化处理,将其转换为后续特征提取的形式;文本特征选择,基于信息增益公式,以反映特征的重要性,信息增益越大,特征就越重要;分类器训练是基于改进Tri‑training算法进行训练。本发明算法在三个分类器中共享一个训练集,这降低了分类器出错的概率。对进入标记数据集的样本施加了更严格的限制。此外,在每次迭代训练后,根据样本类别比例的变化动态更新概率阈值。此外,将RemoveOnly编辑操作和自适应数据编辑策略结合到Tri‑training算法学习过程中。
技术关键词
文本分类方法
分类器训练
特征选择
文本数据处理技术
朴素贝叶斯
近邻算法
动态更新
样本
编辑
训练集
策略
标签
标记
频率
系统为您推荐了相关专利信息
决策分类器
频域特征
二分类器
模式
梯度提升模型
评级系统
数据收集单元
备份
显示输出单元
数据处理单元
汽车动力电池
追踪系统
实时数据监测
特征工程
充放电循环次数
深海表层沉积物
强度预测方法
随机森林模型
蒙特卡罗
深海沉积物