摘要
本申请提供的网页数据采集方法,包括:获取目标网页数据文件,并确定目标网页数据文件对应的文件类型;根据文件类型,从目标网页数据文件中提取网页结构信息和交互逻辑信息,并根据网页结构信息和交互逻辑信息,构建目标网页数据文件的网页交互图;基于网页交互图,结合大模型和强化学习策略,生成目标网页数据文件的网页操作序列;根据网页操作序列,从目标网页数据文件中采集多模态网页数据后融合,并根据融合后的多模态网页数据,生成网页数据报告。如此,提升了在面对内容变化频繁、交互复杂的新型网页时网页数据采集的适应性。
技术关键词
网页数据采集方法
网页结构
强化学习策略
生成网页
计算机可读指令
逻辑
网页数据采集装置
多模态
网页元素
序列
识别文本块
报告
计算机设备
关系
文本识别
处理器
系统为您推荐了相关专利信息
隧道作业
监测方法
抗干扰算法
傅里叶变换方法
权重分配策略
卡尔曼滤波
识别方法
特征融合方法
时间序列信息
YOLO算法
洪水预报方法
深度学习模型
时序
模型预测值
卷积神经网络模型
预警方法
环境感知数据
车辆运行数据
表达式
驾驶员面部表情