一种用于敏感信息识别的领域感知精简数据集构建方法

正文

推荐专利

申请号：CN202510879365

申请日期：2025-06-27

公开号：CN120745614A

公开日期：2025-10-03

类型：发明专利

摘要

本发明属于自然语言处理技术领域，公开了一种用于敏感信息识别的领域感知精简数据集构建方法。本发明通过领域种子驱动构建结构模版，用于大规模伪数据的合成生成，并采用教师模型输出的logits和注意力作为蒸馏信号；通过对logits进行数值裁剪与对注意力分布实施非对称重构，提升伪标签的表达稳定性与边界感知能力；学生模型以软标签拟合、注意力对齐等多目标联合优化方式进行训练，最终在高置信伪标签筛选基础上实现种子自反馈更新，从而完成多轮迭代学习。本发明具备轻量、低依赖、高迁移的特点，适用于敏感信息自动抽取与跨领域实体识别任务。

技术关键词

数据集构建方法敏感信息识别注意力模版数据生成器教师种子蒸馏学生样本 attention机制标签结构命名实体识别模型网页爬虫技术关键词矩阵文本

系统为您推荐了相关专利信息

一种多语言大模型训练方法、装置及相关设备

平行语料数据多语言资源注意力模型训练方法

一种基于耦合知识蒸馏的多模态目标跟踪方法和系统

分支教师学生蒸馏补丁

一种基于自适应深度压缩感知的工业语义通信方法及系统

语义特征通信方法编码器模块识别模块工业刀具

多模态脑卒中智能预警方法及系统

多模态智能预警方法预警模型节点特征提取模型

一种基于关系感知矫正注意力网络的视听匹配方法

矫正视听人脸图像特征关系音频

一种用于敏感信息识别的领域感知精简数据集构建方法

站点导航

APP 下载