摘要
本发明公开了一种基于大语言模型的多轮交叉验证与弱监督噪声清洗方法。所述方法融合弱监督学习与大语言模型推理能力,通过引入少量高质量标签种子,结合自动化规则构建与交叉验证流程,对低置信度样本进行多轮清洗与标签优化。本发明通过构建以大语言模型为核心的验证与反馈体系,实现了对大规模文本数据中弱标签的高效提纯与增强,为关系抽取、文本分类、实体识别等自然语言处理任务提供高质量训练数据与智能化标签优化支持。
技术关键词
大语言模型
清洗方法
校验模块
启发式策略
标签
图文混合内容
三元组
大规模文本数据
半结构化文本
噪声
置信度算法
注意力机制
弱监督学习
校验模型
分类阈值
评估算法
闭环
词典