一种长文本中敏感数据的标注方法、系统、设备及介质

正文

推荐专利

申请号：CN202410714457

申请日期：2024-06-04

公开号：CN118606470A

公开日期：2024-09-06

类型：发明专利

摘要

本发明适用于数据处理技术领域，提供了一种长文本中敏感数据的标注方法、系统、设备及介质，其方法包括：获取预处理后的包括敏感数据和非敏感数据的初始长文本数据；构建基于TF‑IDF方法提取特征的自然语言处理模型，将初始长文本数据作为训练样本输入至自然语言处理模型中进行训练；基于训练完成后输出的目标长文本数据确定关键词和所述关键词的权重，关键词表示所述目标长文本数据中的敏感数据；将目标长文本数据切割为若干片段，并选取若干片段中包含关键词的片段；基于关键词的权重将包含关键词的片段进行排序，根据排序结果依次标注敏感数据。通过训练模型和计算关键词及其权重，提高敏感数据的标注效率。

技术关键词

关键词标注方法文本自然语言计算机可读指令搜索算法词嵌入模型表达式数据获取单元可读存储介质数据处理技术处理器频率计算机设备矩阵参数存储器因子

一种长文本中敏感数据的标注方法、系统、设备及介质

站点导航

APP 下载