一种用于涉诈网址识别训练的样本分类扩样方法及系统

正文

推荐专利

申请号：CN202410959165

申请日期：2024-07-17

公开号：CN118861897A

公开日期：2024-10-29

类型：发明专利

摘要

本发明公开了一种用于涉诈网址识别训练的样本分类扩样方法，包括：获取URL样本数据，并对URL样本数据进行字符拆分，以构建词嵌入矩阵；将词嵌入矩阵输入双向LSTM模型或CNN模型中进行训练，得到字符级向量表示；对URL样本数据采集基于域名的全局URL特征，并使用随机森林模型计算全局URL特征的重要性得到关键特征集；基于关键特征集，对双向LSTM模型或CNN模型进行训练，以更新字符级特征向量表示；将更新后的字符级特征向量表示输入神经网络的全连接层进行迭代训练，以对URL样本数据进行二分类。本发明通过提取字符级向量表示，并计算特征的重要性输出关键特征集，更新字符级向量表示，实现URL样本数据分类扩样，避免冗余特征影响识别结果，改善涉诈网址识别率。

技术关键词

URL特征 LSTM模型字符随机森林模型样本扩样方法网址矩阵多层感知机 ReLU函数梯度下降算法非线性数据采集单元爬虫技术冗余特征计算机处理器传播算法数据分类

系统为您推荐了相关专利信息

一种数据处理方法及相关设备

数据处理方法文本计算机可读指令对抗性教师

用于电网调度数据网的数据传输方法及系统

电网调度数据调度数据网数据传输方法电压拟合曲线计算机程序指令

一种癌细胞增生检测试剂盒及检测方法与系统

检测试剂盒表面修饰动态监测系统标志物样本

一种建立目标蛋白质酸度系数预测模型的方法、设备、介质及程序产品

训练样本数据节点序列更新模型参数多层感知机

基于响应结构识别的Web资产测绘方法

测绘方法指纹 HTTP请求语义特征提取前馈神经网络

一种用于涉诈网址识别训练的样本分类扩样方法及系统

站点导航

APP 下载