摘要
本申请公开了一种网页信息分类方法、装置及存储介质,用于信息分类领域。本申请方法包括:使用Python的Scrapy库从目标网页获取网页中的静态数据;使用Selenium自动化工具从目标网页获取网页的动态数据;基于所述静态数据和所述动态数据构建DOM树形结构;使用XLM‑RoBERTa预训练语言模型对已构建DOM树形结构的所述静态数据和所述动态数据进行向量化,转化为数值向量;将DOM树形结构转换为图结构,并将数值向量输入卷积图神经网络模型中,通过卷积图神经网络模型对图结构进行编码,生成特征向量;将所述特征向量输入预配置的分类模型中进行计算,通过预配置的分类模型对所述静态数据和所述动态数据进行分类。
技术关键词
网页信息分类方法
树形结构
自动化工具
神经网络模型
生成特征向量
训练语言模型
信息分类装置
输入输出单元
数值
深度优先遍历
列表
节点
可读存储介质
样本
编码
申请方法
算法
数据
存储器
程序
系统为您推荐了相关专利信息
人工神经网络模型
锂离子电池
模型训练方法
SOH估计方法
标签
仓储智能
数据显示界面
融霜
电能采集模块
Modbus通信协议
振动状态监测
变压器
元启发式算法
计算机可执行指令
负荷