多标签文本数据集的蒸馏方法、装置、计算机设备和存储介质

AITNT
正文
推荐专利
多标签文本数据集的蒸馏方法、装置、计算机设备和存储介质
申请号:CN202510572042
申请日期:2025-05-06
公开号:CN120087449B
公开日期:2025-09-09
类型:发明专利
摘要
本申请涉及一种多标签文本数据集的蒸馏方法、装置、计算机设备和存储介质,其中,该方法包括:多标签文本数据集的蒸馏方法、装置、计算机设备和存储介质,通过获取原始数据集的第一文本嵌入向量和第一注意力标签的形状;原始数据集为多标签文本数据集;对第一注意力标签的形状进行剪枝,并根据剪枝结果和第一文本嵌入向量构建初始合成数据集;利用预设的内外循环机制,对初始合成数据集和原始数据集进行处理,得到目标合成数据集。通过本申请,解决了相关技术中存在少数类样本上表现欠佳,降低识别精度的问题;通过剪枝操作降低注意力标签的计算成本,还能捕捉到文本中的细粒度语义特征,从而提高数据集的可靠性。
技术关键词
标签文本 蒸馏方法 多标签 数据 计算机设备 注意力机制 策略 蒸馏装置 语义特征 模块 处理器 两阶段 可读存储介质 存储器 噪声 矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号