摘要
本发明提供了一种面向敏感信息的数据增强方法,应用于命名实体识别,包括:构建用于命名实体识别的敏感信息数据集,对敏感信息数据集进行标签序列线性化处理,获得标签序列线性化处理后的敏感信息数据集;标签序列线性化处理为:对敏感信息数据集中的原始文本序列进行实体标签插入,构建实体标签与命名实体共存的线性序列;将RoBERTa‑WWM模型作为预训练模型,并采用命名实体导向掩码策略,进行迭代训练,获得E‑MLM模型;将待处理数据集输入E‑MLM模型,获得对应的增强数据集。该方案中基于E‑MLM模型以命名实体作为掩码中心,并结合整词掩码机制,有效增强了命名实体识别训练数据的多样性和质量,提高了自然语言处理模型在有限样本条件下的实体识别精度。
技术关键词
敏感信息数据
命名实体识别
序列
标签
文本
掩码策略
预训练模型
线性
前馈神经网络
模型训练模块
标注方法
处理器
编码器
注意力机制
词语
自然语言
优化器
可读存储介质
系统为您推荐了相关专利信息
被动定位方法
优化估计方法
水下观测平台
序列
滤波器
智能辅助系统
分析模块
数据采集模块
智能辅助方法
语音采集模块
分片
存储访问控制方法
综合信任值
实用拜占庭容错
令牌
LSTM模型
对齐方法
隔膜
负极极片
通道注意力机制