摘要
本发明设计一种协同编辑场景下基于用户编辑轨迹的敏感数据预测方法,涉及到数据安全领域,包括获取用户历史文本数据,筛选含敏感数据的目标文本,进行主题划分、分词并提取关键词及其位置信息建立文本编辑轨迹;对文本关键词集合的每个关键词,采用上下文窗口机制选取得到敏感词集合并划分敏感词安全等级;根据关键词编辑线索、主题标签及具有等级划分的敏感词集合,运用图注意力网络构建基于关键词的用户轨迹模型;输入编辑过程文本,识别关键词及标签,结合接收人角色身份等级,输入轨迹图模型得到预测敏感词集合。本发明基于用户编辑轨迹创建模型,可以加快敏感数据的识别效率,降低泄露风险,同时又提高了不同文本主题下敏感词识别准确率。
技术关键词
编辑
文本
主题
轨迹模型
线索
标签
注意力
关键词特征
身份
分词算法
节点
数据安全
网络
场景
机制
标记
系统为您推荐了相关专利信息
检测模型生成方法
图像特征提取模型
信息检测方法
融合特征
文本
风险预测系统
NLP技术
术语标准化
医疗文本数据
模型预训练
形状分割方法
注意力机制
拉普拉斯
文本
融合特征
样本分类方法
预训练模型
视觉特征提取
分支
图像多模态