一种基于人工智能算法的网页电子档案处理方法

AITNT
正文
推荐专利
一种基于人工智能算法的网页电子档案处理方法
申请号:CN202510696444
申请日期:2025-05-28
公开号:CN120234462B
公开日期:2025-08-15
类型:发明专利
摘要
本发明公开了一种基于人工智能算法的网页电子档案处理方法,涉及信息采集技术领域,包括:获取目标网站的URL集合U₀,URL集合U₀包含有多个种子URL,通过页面解析引擎提取各个种子URL对应的元数据,以生成元数据集合;根据元数据集合,以构建初始特征向量;获取新的目标网站的元数据集合,利用已训练完成的混合遍历模型对新的目标网站内各个超链接生成策略概率,基于策略概率确定遍历策略;根据遍历策略执行过程中记录的路径信息,获取网页标签和聚合强度,并基于网页标签和聚合强度进行归档优先级分类,本发明实现了对网页结构复杂度与超链接语义价值的精细识别与动态适应,能够在不同层级、不同密度分布的网页结构中灵活调整遍历路径。
技术关键词
人工智能算法 策略标签 神经网络参数 前馈神经网络 页面 网页结构 电子 矩阵 指向型 目录 信息采集技术 偏差 强度 种子 数据 传播算法 样本 层级
系统为您推荐了相关专利信息
1
基于智能体的网页信息处理方法、装置、设备及介质
网页信息处理方法 生成结构化数据 页面结构 决策 网页信息处理装置
2
一种基于无监督与有监督学习结合的无人艇故障诊断方法
无人艇 无监督神经网络 故障诊断方法 T2统计量 神经网络架构
3
信息提示方法、装置、计算设备、存储介质及程序产品
人工智能模型 信息提示方法 客户端 指令 服务端
4
一种用户标注信息处理、装置、电子设备及存储介质
标注信息处理方法 电子设备 页面尺寸 触控点 线段
5
一种空天装备关键零部件的数字孪生智造与测试系统
三维视觉信息 缺陷探伤设备 模块 数字孪生技术 力学
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号