摘要
本发明提出了一种基于BERT模型和KNN半监督学习的少样本文本分类方法,通过融合BERT注意力机制与K近邻算法KNN进行半监督学习,先利用初始的标注数据训练BertATT模型,依据模型的注意力分布对有标签与无标签样本进行高注意力Token的提取,重构语义空间增强样本表示能力,随后在伪标签生成阶段,引入KNN算法,在重构后的样本空间中,计算未标注样本与标注样本之间的距离,通过KNN投票机制为高置信度的未标注样本赋予伪标签,并将其加入训练集中参与后续训练;本方法在提升伪标注准确性的同时,逐步优化模型性能,实现对少量标注数据的高效利用,提升了模型训练的稳定性与泛化能力,降低了对初始标注样本质量的依赖性,具备较强的工程适用性与跨领域扩展性。
技术关键词
文本分类方法
BERT模型
样本
标签
重构
少量标注数据
注意力机制
损失函数优化
半监督学习
KNN算法
近邻算法
度量
语义特征
关键性
鲁棒性
矩阵
系统为您推荐了相关专利信息
神经网络模型
计算机程序指令
识别方法
异构
元素
智能通信设备
定位标签
智慧农业监测系统
高风险
土壤湿度信息
红外相机
成像方法
气体泄漏检测
气体浓度分布
损失函数设计