网页数据采集方法、装置、存储介质及计算机设备

正文

推荐专利

申请号：CN202510598445

申请日期：2025-05-09

公开号：CN120448615A

公开日期：2025-08-08

类型：发明专利

摘要

本申请提供的网页数据采集方法，包括：获取目标网页数据文件，并确定目标网页数据文件对应的文件类型；根据文件类型，从目标网页数据文件中提取网页结构信息和交互逻辑信息，并根据网页结构信息和交互逻辑信息，构建目标网页数据文件的网页交互图；基于网页交互图，结合大模型和强化学习策略，生成目标网页数据文件的网页操作序列；根据网页操作序列，从目标网页数据文件中采集多模态网页数据后融合，并根据融合后的多模态网页数据，生成网页数据报告。如此，提升了在面对内容变化频繁、交互复杂的新型网页时网页数据采集的适应性。

技术关键词

网页数据采集方法网页结构强化学习策略生成网页计算机可读指令逻辑网页数据采集装置多模态网页元素序列识别文本块报告计算机设备关系文本识别处理器

系统为您推荐了相关专利信息

隧道作业安全监测方法、装置、存储介质及计算机设备

隧道作业监测方法抗干扰算法傅里叶变换方法权重分配策略

基于3D+2D高维特征融合的物料跟踪多目标识别方法及系统

卡尔曼滤波识别方法特征融合方法时间序列信息 YOLO算法

时序增强深度学习洪水预报方法、装置、设备和介质

洪水预报方法深度学习模型时序模型预测值卷积神经网络模型

一种多维信息融合的车辆监控及异常行为预警方法

预警方法环境感知数据车辆运行数据表达式驾驶员面部表情

一种发动机运行控制方法、设备、系统和存储介质

变速器控制单元档位因子阶段计算机可读指令

网页数据采集方法、装置、存储介质及计算机设备

站点导航

APP 下载