摘要
本发明公开了一种基于人工智能算法的网页电子档案处理方法,涉及信息采集技术领域,包括:获取目标网站的URL集合U₀,URL集合U₀包含有多个种子URL,通过页面解析引擎提取各个种子URL对应的元数据,以生成元数据集合;根据元数据集合,以构建初始特征向量;获取新的目标网站的元数据集合,利用已训练完成的混合遍历模型对新的目标网站内各个超链接生成策略概率,基于策略概率确定遍历策略;根据遍历策略执行过程中记录的路径信息,获取网页标签和聚合强度,并基于网页标签和聚合强度进行归档优先级分类,本发明实现了对网页结构复杂度与超链接语义价值的精细识别与动态适应,能够在不同层级、不同密度分布的网页结构中灵活调整遍历路径。
技术关键词
人工智能算法
策略标签
神经网络参数
前馈神经网络
页面
网页结构
电子
矩阵
指向型
目录
信息采集技术
偏差
强度
种子
数据
传播算法
样本
层级
系统为您推荐了相关专利信息
网页信息处理方法
生成结构化数据
页面结构
决策
网页信息处理装置
无人艇
无监督神经网络
故障诊断方法
T2统计量
神经网络架构
标注信息处理方法
电子设备
页面尺寸
触控点
线段
三维视觉信息
缺陷探伤设备
模块
数字孪生技术
力学