摘要
本发明为一种基于弱监督的噪声数据训练方法,所述方法包括如下步骤:1)基于带噪声数据训练预测模型;2)使用预测模型生成伪标签;3)利用外部知识库对伪标签进行基于冲突识别的校验和修正;4)利用伪标签对权重更新模型进行训练;5)使用权重更新模型的权重对预测模型的权重进行更新;6)模型评估与优化。本发明可以很好地提高文本挖掘在实际应用中的可行性和有效性。这种方法利用现有的少量标注数据和机器学习算法,优化从噪声数据中学习的过程,减少对大量高质量标注数据的依赖,从而在保持高效数据处理的同时,提高信息提取的准确率。
技术关键词
噪声数据
标签
训练预测模型
高效数据处理
少量标注数据
样本
可视化工具
机器学习算法
实体
展示模型
融合策略
文本
同义词
鲁棒性
训练集
参数
偏差
系统为您推荐了相关专利信息
宫颈图像处理方法
图像分割模型
宫颈癌前病变
注意力
融合特征
摄像设备
支付方法
消息验证码
支付平台
计算机程序产品
开放式外科手术
智能预测方法
深度卷积神经网络
多头注意力机制
语义特征