一种面向敏感信息的数据增强方法、系统、设备及介质

正文

推荐专利

申请号：CN202411010677

申请日期：2024-07-26

公开号：CN118940762A

公开日期：2024-11-12

类型：发明专利

摘要

本发明提供了一种面向敏感信息的数据增强方法，应用于命名实体识别，包括：构建用于命名实体识别的敏感信息数据集，对敏感信息数据集进行标签序列线性化处理，获得标签序列线性化处理后的敏感信息数据集；标签序列线性化处理为：对敏感信息数据集中的原始文本序列进行实体标签插入，构建实体标签与命名实体共存的线性序列；将RoBERTa‑WWM模型作为预训练模型，并采用命名实体导向掩码策略，进行迭代训练，获得E‑MLM模型；将待处理数据集输入E‑MLM模型，获得对应的增强数据集。该方案中基于E‑MLM模型以命名实体作为掩码中心，并结合整词掩码机制，有效增强了命名实体识别训练数据的多样性和质量，提高了自然语言处理模型在有限样本条件下的实体识别精度。

技术关键词

敏感信息数据命名实体识别序列标签文本掩码策略预训练模型线性前馈神经网络模型训练模块标注方法处理器编码器注意力机制词语自然语言优化器可读存储介质

系统为您推荐了相关专利信息

一种快速收敛的水声目标被动定位方法

被动定位方法优化估计方法水下观测平台序列滤波器

基于Aho-Corasick算法与大模型的政策项目行业分类方法及装置

行业分类方法关键词模式匹配项目模板

基于云计算的情绪调节智能辅助系统及方法

智能辅助系统分析模块数据采集模块智能辅助方法语音采集模块

基于时效URL的动态多文件服务存储访问控制方法

分片存储访问控制方法综合信任值实用拜占庭容错令牌

一种极耳对齐方法、装置、设备、介质及产品

LSTM模型对齐方法隔膜负极极片通道注意力机制

一种面向敏感信息的数据增强方法、系统、设备及介质

站点导航

APP 下载