摘要
本申请涉及一种多标签文本数据集的蒸馏方法、装置、计算机设备和存储介质,其中,该方法包括:多标签文本数据集的蒸馏方法、装置、计算机设备和存储介质,通过获取原始数据集的第一文本嵌入向量和第一注意力标签的形状;原始数据集为多标签文本数据集;对第一注意力标签的形状进行剪枝,并根据剪枝结果和第一文本嵌入向量构建初始合成数据集;利用预设的内外循环机制,对初始合成数据集和原始数据集进行处理,得到目标合成数据集。通过本申请,解决了相关技术中存在少数类样本上表现欠佳,降低识别精度的问题;通过剪枝操作降低注意力标签的计算成本,还能捕捉到文本中的细粒度语义特征,从而提高数据集的可靠性。
技术关键词
标签文本
蒸馏方法
多标签
数据
计算机设备
注意力机制
策略
蒸馏装置
语义特征
模块
处理器
两阶段
可读存储介质
存储器
噪声
矩阵