摘要
本发明的基于中文文本多分类的涉诈网址识别方法,属于互联网安全技术领域,包括以下步骤:S1:获取网址的多个中文文本并预处理;S2:对预处理后的中文文本进行中文分词与词嵌入,将分词后的结果编码并调整成长度一致的整数序列列表;S3:对整数序列列表进行编码并输出语言向量;S4:对语言向量进行特征提取,转化为语言特征向量;S5:将语言特征向量处理,输出隐状态特征向量;S6:将隐状态特征向量进行特征提取并输出结果;S7:将特征提取结果,传递给softmax激活函数转化为概率分布;S8:选择概率最大的类别,作为该中文文本的分类结果。该方法不仅对分词器进行了优化,还结合WoBERT和CRNN模型,通过多步骤的处理,实现了对中文文本的精准分类。
技术关键词
网址识别方法
中文文本
列表
互联网安全技术
中文分词
序列
词语
LSTM模型
高层次
模块
编码规则
语义
编码器
非线性
数据
系统为您推荐了相关专利信息
差异检测技术
云端数据同步
身份验证机制
生成终端
同步算法
关键特征值
故障预测方法
多任务学习模型
列表
程度计算方法
网络服务访问方法
多端口
访问系统
网络端口
算法
教育资源推荐
学习路径推荐
推荐系统
子模块
数据模块