一种用于敏感信息识别的领域感知精简数据集构建方法

AITNT
正文
推荐专利
一种用于敏感信息识别的领域感知精简数据集构建方法
申请号:CN202510879365
申请日期:2025-06-27
公开号:CN120745614A
公开日期:2025-10-03
类型:发明专利
摘要
本发明属于自然语言处理技术领域,公开了一种用于敏感信息识别的领域感知精简数据集构建方法。本发明通过领域种子驱动构建结构模版,用于大规模伪数据的合成生成,并采用教师模型输出的logits和注意力作为蒸馏信号;通过对logits进行数值裁剪与对注意力分布实施非对称重构,提升伪标签的表达稳定性与边界感知能力;学生模型以软标签拟合、注意力对齐等多目标联合优化方式进行训练,最终在高置信伪标签筛选基础上实现种子自反馈更新,从而完成多轮迭代学习。本发明具备轻量、低依赖、高迁移的特点,适用于敏感信息自动抽取与跨领域实体识别任务。
技术关键词
数据集构建方法 敏感信息识别 注意力 模版 数据生成器 教师 种子 蒸馏 学生 样本 attention机制 标签结构 命名实体识别模型 网页爬虫技术 关键词 矩阵 文本
系统为您推荐了相关专利信息
1
一种多语言大模型训练方法、装置及相关设备
平行语料数据 多语言 资源 注意力 模型训练方法
2
一种基于耦合知识蒸馏的多模态目标跟踪方法和系统
分支 教师 学生 蒸馏 补丁
3
一种基于自适应深度压缩感知的工业语义通信方法及系统
语义特征 通信方法 编码器模块 识别模块 工业刀具
4
多模态脑卒中智能预警方法及系统
多模态 智能预警方法 预警模型 节点 特征提取模型
5
一种基于关系感知矫正注意力网络的视听匹配方法
矫正 视听 人脸图像特征 关系 音频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号