摘要
本申请提出了一种URL分类模型的训练方法,包括:通过无标记样本URL对第一URL分类模型执行替换令牌检测训练和打乱令牌检测训练得到第二URL分类模型;通过无标记样本URL对第二URL分类模型执行掩码学习、自监督对比学习和虚拟对抗训练,得到第三URL分类模型;基于第一有标记样本URL的编码结果和真实分类标记训练卷积神经网络,使第三URL分类模型与卷积神经网络链接为第四URL分类模型;基于第二有标记样本URL及其真实分类标记,对第四URL分类模型的模型参数进行微调。本技术方案在大幅度降低有标记样本数量的基础上提升URL分类模型对特定URL分类任务的分类能力。
技术关键词
令牌
标记
样本
训练卷积神经网络
序列
计算机可执行指令
参数
编码
字词
优化器
分词
数据
处理器通信
度函数
计算机设备
可读存储介质
符号
存储器