多标签文本数据集的蒸馏方法、装置、计算机设备和存储介质

正文

推荐专利

申请号：CN202510572042

申请日期：2025-05-06

公开号：CN120087449B

公开日期：2025-09-09

类型：发明专利

摘要

本申请涉及一种多标签文本数据集的蒸馏方法、装置、计算机设备和存储介质，其中，该方法包括：多标签文本数据集的蒸馏方法、装置、计算机设备和存储介质，通过获取原始数据集的第一文本嵌入向量和第一注意力标签的形状；原始数据集为多标签文本数据集；对第一注意力标签的形状进行剪枝，并根据剪枝结果和第一文本嵌入向量构建初始合成数据集；利用预设的内外循环机制，对初始合成数据集和原始数据集进行处理，得到目标合成数据集。通过本申请，解决了相关技术中存在少数类样本上表现欠佳，降低识别精度的问题；通过剪枝操作降低注意力标签的计算成本，还能捕捉到文本中的细粒度语义特征，从而提高数据集的可靠性。

技术关键词

标签文本蒸馏方法多标签数据计算机设备注意力机制策略蒸馏装置语义特征模块处理器两阶段可读存储介质存储器噪声矩阵

多标签文本数据集的蒸馏方法、装置、计算机设备和存储介质

站点导航

APP 下载