摘要
本发明属于自然语言处理技术领域,公开了一种用于敏感信息识别的领域感知精简数据集构建方法。本发明通过领域种子驱动构建结构模版,用于大规模伪数据的合成生成,并采用教师模型输出的logits和注意力作为蒸馏信号;通过对logits进行数值裁剪与对注意力分布实施非对称重构,提升伪标签的表达稳定性与边界感知能力;学生模型以软标签拟合、注意力对齐等多目标联合优化方式进行训练,最终在高置信伪标签筛选基础上实现种子自反馈更新,从而完成多轮迭代学习。本发明具备轻量、低依赖、高迁移的特点,适用于敏感信息自动抽取与跨领域实体识别任务。
技术关键词
数据集构建方法
敏感信息识别
注意力
模版
数据生成器
教师
种子
蒸馏
学生
样本
attention机制
标签结构
命名实体识别模型
网页爬虫技术
关键词
矩阵
文本
系统为您推荐了相关专利信息
语义特征
通信方法
编码器模块
识别模块
工业刀具
多模态
智能预警方法
预警模型
节点
特征提取模型