一种基于改进Tri-training算法的文本分类方法

AITNT
正文
推荐专利
一种基于改进Tri-training算法的文本分类方法
申请号:CN202410757736
申请日期:2024-06-13
公开号:CN118673143A
公开日期:2024-09-20
类型:发明专利
摘要
本发明公开了文本数据处理技术领域的一种基于改进Tri‑training算法的文本分类方法,包括如下步骤:文本预处理、文本特征选择和分类器训练;文本处理包括对所选文本数据进行标准化处理,将其转换为后续特征提取的形式;文本特征选择,基于信息增益公式,以反映特征的重要性,信息增益越大,特征就越重要;分类器训练是基于改进Tri‑training算法进行训练。本发明算法在三个分类器中共享一个训练集,这降低了分类器出错的概率。对进入标记数据集的样本施加了更严格的限制。此外,在每次迭代训练后,根据样本类别比例的变化动态更新概率阈值。此外,将RemoveOnly编辑操作和自适应数据编辑策略结合到Tri‑training算法学习过程中。
技术关键词
文本分类方法 分类器训练 特征选择 文本数据处理技术 朴素贝叶斯 近邻算法 动态更新 样本 编辑 训练集 策略 标签 标记 频率
系统为您推荐了相关专利信息
1
基于多维度特征融合的异常短信行为检测方法及系统
时空分布特征 短信 验证机制 场景特征 级联式
2
基于图像频域特征的VVC编码单元快速划分方法和系统
决策分类器 频域特征 二分类器 模式 梯度提升模型
3
基于环境影响数据的环境分析评级系统
评级系统 数据收集单元 备份 显示输出单元 数据处理单元
4
汽车动力电池数据记录与追踪系统
汽车动力电池 追踪系统 实时数据监测 特征工程 充放电循环次数
5
一种基于随机森林算法的深海表层沉积物强度预测方法
深海表层沉积物 强度预测方法 随机森林模型 蒙特卡罗 深海沉积物
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号