一种基于人工智能算法的网页电子档案处理方法

正文

推荐专利

申请号：CN202510696444

申请日期：2025-05-28

公开号：CN120234462B

公开日期：2025-08-15

类型：发明专利

摘要

本发明公开了一种基于人工智能算法的网页电子档案处理方法，涉及信息采集技术领域，包括：获取目标网站的URL集合U₀，URL集合U₀包含有多个种子URL，通过页面解析引擎提取各个种子URL对应的元数据，以生成元数据集合；根据元数据集合，以构建初始特征向量；获取新的目标网站的元数据集合，利用已训练完成的混合遍历模型对新的目标网站内各个超链接生成策略概率，基于策略概率确定遍历策略；根据遍历策略执行过程中记录的路径信息，获取网页标签和聚合强度，并基于网页标签和聚合强度进行归档优先级分类，本发明实现了对网页结构复杂度与超链接语义价值的精细识别与动态适应，能够在不同层级、不同密度分布的网页结构中灵活调整遍历路径。

技术关键词

人工智能算法策略标签神经网络参数前馈神经网络页面网页结构电子矩阵指向型目录信息采集技术偏差强度种子数据传播算法样本层级

系统为您推荐了相关专利信息

基于智能体的网页信息处理方法、装置、设备及介质

网页信息处理方法生成结构化数据页面结构决策网页信息处理装置

一种基于无监督与有监督学习结合的无人艇故障诊断方法

无人艇无监督神经网络故障诊断方法 T2统计量神经网络架构

信息提示方法、装置、计算设备、存储介质及程序产品

人工智能模型信息提示方法客户端指令服务端

一种用户标注信息处理、装置、电子设备及存储介质

标注信息处理方法电子设备页面尺寸触控点线段

一种空天装备关键零部件的数字孪生智造与测试系统

三维视觉信息缺陷探伤设备模块数字孪生技术力学

一种基于人工智能算法的网页电子档案处理方法

站点导航

APP 下载