一种用于涉诈网址识别训练的样本分类扩样方法及系统

AITNT
正文
推荐专利
一种用于涉诈网址识别训练的样本分类扩样方法及系统
申请号:CN202410959165
申请日期:2024-07-17
公开号:CN118861897A
公开日期:2024-10-29
类型:发明专利
摘要
本发明公开了一种用于涉诈网址识别训练的样本分类扩样方法,包括:获取URL样本数据,并对URL样本数据进行字符拆分,以构建词嵌入矩阵;将词嵌入矩阵输入双向LSTM模型或CNN模型中进行训练,得到字符级向量表示;对URL样本数据采集基于域名的全局URL特征,并使用随机森林模型计算全局URL特征的重要性得到关键特征集;基于关键特征集,对双向LSTM模型或CNN模型进行训练,以更新字符级特征向量表示;将更新后的字符级特征向量表示输入神经网络的全连接层进行迭代训练,以对URL样本数据进行二分类。本发明通过提取字符级向量表示,并计算特征的重要性输出关键特征集,更新字符级向量表示,实现URL样本数据分类扩样,避免冗余特征影响识别结果,改善涉诈网址识别率。
技术关键词
URL特征 LSTM模型 字符 随机森林模型 样本 扩样方法 网址 矩阵 多层感知机 ReLU函数 梯度下降算法 非线性 数据采集单元 爬虫技术 冗余特征 计算机 处理器 传播算法 数据分类
系统为您推荐了相关专利信息
1
一种数据处理方法及相关设备
数据处理方法 文本 计算机可读指令 对抗性 教师
2
用于电网调度数据网的数据传输方法及系统
电网调度数据 调度数据网 数据传输方法 电压拟合曲线 计算机程序指令
3
一种癌细胞增生检测试剂盒及检测方法与系统
检测试剂盒 表面修饰 动态监测系统 标志物 样本
4
一种建立目标蛋白质酸度系数预测模型的方法、设备、介质及程序产品
训练样本数据 节点 序列 更新模型参数 多层感知机
5
基于响应结构识别的Web资产测绘方法
测绘方法 指纹 HTTP请求 语义特征提取 前馈神经网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号