摘要
本发明公开了一种敏感数据识别的方法、装置及存储介质,包括:将待识别文本转换为按词汇或字符切分的第一序列,并对其中每个元素进行位置编码,得到位置序列;用敏感数据识别模型从第一序列和位置序列中识别出符合敏感数据的特征、且位置上连续的多个元素,以确定待识别文本的敏感数据;敏感数据识别模型在训练时只针对新类型的敏感数据进行迭代训练、且在迭代训练的过程中基于蒸馏学习使敏感数据识别模型保留识别已知类型的敏感数据的能力,直至识别新类型的敏感数据的准确率达到期望值;已知类型的敏感数据为新类型的敏感数据出现前敏感数据识别模型能识别的敏感数据。
技术关键词
敏感数据识别
双向长短期记忆网络
预训练语言模型
序列
前馈神经网络
文本
元素
分类器
残差网络
无标签样本
字符
学生
教师
编码
蒸馏
自然语言
无标签数据
条件随机场
存储器