一种基于改进Tri-training算法的文本分类方法

正文

推荐专利

申请号：CN202410757736

申请日期：2024-06-13

公开号：CN118673143A

公开日期：2024-09-20

类型：发明专利

摘要

本发明公开了文本数据处理技术领域的一种基于改进Tri‑training算法的文本分类方法，包括如下步骤：文本预处理、文本特征选择和分类器训练；文本处理包括对所选文本数据进行标准化处理，将其转换为后续特征提取的形式；文本特征选择，基于信息增益公式，以反映特征的重要性，信息增益越大，特征就越重要；分类器训练是基于改进Tri‑training算法进行训练。本发明算法在三个分类器中共享一个训练集，这降低了分类器出错的概率。对进入标记数据集的样本施加了更严格的限制。此外，在每次迭代训练后，根据样本类别比例的变化动态更新概率阈值。此外，将RemoveOnly编辑操作和自适应数据编辑策略结合到Tri‑training算法学习过程中。

技术关键词

文本分类方法分类器训练特征选择文本数据处理技术朴素贝叶斯近邻算法动态更新样本编辑训练集策略标签标记频率

系统为您推荐了相关专利信息

基于多维度特征融合的异常短信行为检测方法及系统

时空分布特征短信验证机制场景特征级联式

基于图像频域特征的VVC编码单元快速划分方法和系统

决策分类器频域特征二分类器模式梯度提升模型

基于环境影响数据的环境分析评级系统

评级系统数据收集单元备份显示输出单元数据处理单元

汽车动力电池数据记录与追踪系统

汽车动力电池追踪系统实时数据监测特征工程充放电循环次数

一种基于随机森林算法的深海表层沉积物强度预测方法

深海表层沉积物强度预测方法随机森林模型蒙特卡罗深海沉积物

一种基于改进Tri-training算法的文本分类方法

站点导航

APP 下载