摘要
本发明涉及利用标签结构特征的多标签文本分类方法,属于自然语言处理技术领域。本发明首先对所有标签进行GCN编码,对每个文本的多层次标签GCN编码聚合得到标签聚合向量;其次使用BERT对文本编码,计算每个token与聚合向量的交叉注意力分数,选取分数高的部分token拼接为同源正样本;然后计算聚合向量间的余弦相似度,选取除自身外相似度最高的文本作为同类正样本;最后结合文本与同源、同类正样本设计损失函数,训练多标签分类模型。本发明针对现有方法构造正样本时仅将多层标签视为多个独立标签,模型难以学习到标签间层次关系易造成分类误判,通过构造同源、同类正样本增强模型对标签结构的理解,提升分类准确率。
技术关键词
标签文本分类
多层标签
样本
标签结构
交叉注意力机制
编码
多标签
BERT模型
分类准确率
近邻算法
自然语言
多层次
关系
阶段
网络
参数
系统为您推荐了相关专利信息
障碍识别系统
抑郁
大语言模型
医学知识图谱
量表
三维重建方法
条纹结构
包裹相位
编码器
深度学习模型
新能源车载电池
健康状态估算方法
XGBoost模型
粒子群优化算法
新能源车辆
排队模型
云端
综合能源管控系统
变量
模型动态训练