一种网页信息分类方法、装置及存储介质

AITNT
正文
推荐专利
一种网页信息分类方法、装置及存储介质
申请号:CN202411481452
申请日期:2024-10-23
公开号:CN119003920A
公开日期:2024-11-22
类型:发明专利
摘要
本申请公开了一种网页信息分类方法、装置及存储介质,用于信息分类领域。本申请方法包括:使用Python的Scrapy库从目标网页获取网页中的静态数据;使用Selenium自动化工具从目标网页获取网页的动态数据;基于所述静态数据和所述动态数据构建DOM树形结构;使用XLM‑RoBERTa预训练语言模型对已构建DOM树形结构的所述静态数据和所述动态数据进行向量化,转化为数值向量;将DOM树形结构转换为图结构,并将数值向量输入卷积图神经网络模型中,通过卷积图神经网络模型对图结构进行编码,生成特征向量;将所述特征向量输入预配置的分类模型中进行计算,通过预配置的分类模型对所述静态数据和所述动态数据进行分类。
技术关键词
网页信息分类方法 树形结构 自动化工具 神经网络模型 生成特征向量 训练语言模型 信息分类装置 输入输出单元 数值 深度优先遍历 列表 节点 可读存储介质 样本 编码 申请方法 算法 数据 存储器 程序
系统为您推荐了相关专利信息
1
一种基于神经网络模型的多维度QPCR结果分析系统
基因 样本 堆叠神经网络 分析系统 模板
2
电池SOH估计模型训练方法、SOH估计方法及系统
人工神经网络模型 锂离子电池 模型训练方法 SOH估计方法 标签
3
基于pyside2和MySQL的冷链仓储智能节能平台的实现方法
仓储智能 数据显示界面 融霜 电能采集模块 Modbus通信协议
4
一种鳜鱼预制菜品检测方法、系统及计算机可读存储介质
菜品检测方法 样本 凝胶 强度 神经网络模型
5
基于CPO-VMD与CNN-BiLSTM的变压器振动状态监测方法、系统、设备及介质
振动状态监测 变压器 元启发式算法 计算机可执行指令 负荷
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号