摘要
本发明适用于数据处理技术领域,提供了一种长文本中敏感数据的标注方法、系统、设备及介质,其方法包括:获取预处理后的包括敏感数据和非敏感数据的初始长文本数据;构建基于TF‑IDF方法提取特征的自然语言处理模型,将初始长文本数据作为训练样本输入至自然语言处理模型中进行训练;基于训练完成后输出的目标长文本数据确定关键词和所述关键词的权重,关键词表示所述目标长文本数据中的敏感数据;将目标长文本数据切割为若干片段,并选取若干片段中包含关键词的片段;基于关键词的权重将包含关键词的片段进行排序,根据排序结果依次标注敏感数据。通过训练模型和计算关键词及其权重,提高敏感数据的标注效率。
技术关键词
关键词
标注方法
文本
自然语言
计算机可读指令
搜索算法
词嵌入模型
表达式
数据获取单元
可读存储介质
数据处理技术
处理器
频率
计算机设备
矩阵
参数
存储器
因子