摘要
本发明涉及多标签文本分类技术领域,且公开了一种基于机器阅读理解的小样本多标签文本分类方法,包括以下步骤:首先,对多标签文本数据集进行预处理,统一格式并标注标签。接着,基于标签设计辅助问题并与文本实例结合,形成输入数据。使用RoBERTa模型作为联合编码器主干,学习文本与问题的语义相关性,并构建表征标签关系的标签图。通过特征融合,训练模型以最小化损失函数,并使用验证集进行超参数调优。最终,在测试集上评估模型性能,并与传统方法对比,验证其优势和组件贡献。通过将多标签文本分类向机器阅读理解的任务转化,有助于更好地捕捉文本与标签之间的语义相关性,显著提高了多标签文本分类的准确性。
技术关键词
机器阅读理解
节点特征
语义特征
多标签文本分类
编码器
注意力
样本
标签特征
训练语言模型
数据
令牌
邻居
均衡场景
细粒度特征
深度学习方法