摘要
本发明公开了一种用于涉诈网址识别训练的样本分类扩样方法,包括:获取URL样本数据,并对URL样本数据进行字符拆分,以构建词嵌入矩阵;将词嵌入矩阵输入双向LSTM模型或CNN模型中进行训练,得到字符级向量表示;对URL样本数据采集基于域名的全局URL特征,并使用随机森林模型计算全局URL特征的重要性得到关键特征集;基于关键特征集,对双向LSTM模型或CNN模型进行训练,以更新字符级特征向量表示;将更新后的字符级特征向量表示输入神经网络的全连接层进行迭代训练,以对URL样本数据进行二分类。本发明通过提取字符级向量表示,并计算特征的重要性输出关键特征集,更新字符级向量表示,实现URL样本数据分类扩样,避免冗余特征影响识别结果,改善涉诈网址识别率。
技术关键词
URL特征
LSTM模型
字符
随机森林模型
样本
扩样方法
网址
矩阵
多层感知机
ReLU函数
梯度下降算法
非线性
数据采集单元
爬虫技术
冗余特征
计算机
处理器
传播算法
数据分类
系统为您推荐了相关专利信息
电网调度数据
调度数据网
数据传输方法
电压拟合曲线
计算机程序指令
训练样本数据
节点
序列
更新模型参数
多层感知机
测绘方法
指纹
HTTP请求
语义特征提取
前馈神经网络