一种面向敏感信息的数据增强方法、系统、设备及介质

AITNT
正文
推荐专利
一种面向敏感信息的数据增强方法、系统、设备及介质
申请号:CN202411010677
申请日期:2024-07-26
公开号:CN118940762A
公开日期:2024-11-12
类型:发明专利
摘要
本发明提供了一种面向敏感信息的数据增强方法,应用于命名实体识别,包括:构建用于命名实体识别的敏感信息数据集,对敏感信息数据集进行标签序列线性化处理,获得标签序列线性化处理后的敏感信息数据集;标签序列线性化处理为:对敏感信息数据集中的原始文本序列进行实体标签插入,构建实体标签与命名实体共存的线性序列;将RoBERTa‑WWM模型作为预训练模型,并采用命名实体导向掩码策略,进行迭代训练,获得E‑MLM模型;将待处理数据集输入E‑MLM模型,获得对应的增强数据集。该方案中基于E‑MLM模型以命名实体作为掩码中心,并结合整词掩码机制,有效增强了命名实体识别训练数据的多样性和质量,提高了自然语言处理模型在有限样本条件下的实体识别精度。
技术关键词
敏感信息数据 命名实体识别 序列 标签 文本 掩码策略 预训练模型 线性 前馈神经网络 模型训练模块 标注方法 处理器 编码器 注意力机制 词语 自然语言 优化器 可读存储介质
系统为您推荐了相关专利信息
1
一种快速收敛的水声目标被动定位方法
被动定位方法 优化估计方法 水下观测平台 序列 滤波器
2
基于Aho-Corasick算法与大模型的政策项目行业分类方法及装置
行业分类方法 关键词 模式匹配 项目 模板
3
基于云计算的情绪调节智能辅助系统及方法
智能辅助系统 分析模块 数据采集模块 智能辅助方法 语音采集模块
4
基于时效URL的动态多文件服务存储访问控制方法
分片 存储访问控制方法 综合信任值 实用拜占庭容错 令牌
5
一种极耳对齐方法、装置、设备、介质及产品
LSTM模型 对齐方法 隔膜 负极极片 通道注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号