摘要
本申请公开了一种模型训练方法及敏感信息的识别方法。其中,该模型训练包括:获取数据集,并在数据集中对相同主题的数据进行聚类,得到多个第一数据子集;确定第一敏感词的词汇多样性指标和上下文依赖性指标;根据每个第一数据子集中的第一敏感词的词汇多样性指标和上下文依赖性指标,确定每个第一数据子集对应的复杂度指标;确定每个第一数据子集对应的目标比例,并在每个第一数据子集中选取目标比例的训练数据,得到多个第二数据子集;分别采用数据集和不同的第二数据子集对敏感信息识别模型进行训练。本申请解决了由于相关技术未训练用于识别不同主题的敏感词的模型,造成的对不同主题的敏感词的识别精度较差的技术问题。
技术关键词
敏感信息识别
模型训练方法
指标
数据
非易失性存储介质
复杂度
识别方法
语义向量
文本
预训练语言模型
主题
长短期记忆网络
模型训练装置
计算机程序产品
聚类
处理器
模块
批量
频率
系统为您推荐了相关专利信息
有效载荷数据
中间件
协议转换模块
标识符
关键字
变形检测方法
变形检测系统
单层
点云
数据处理设备
运输路径规划系统
预计行驶时间
运输车辆
拥堵指数
交通流量信息
无线网络设备
网络优化
网络性能优化方法
无线智能管理
服务器