新闻页面数据通用采集方法、装置、设备、介质及产品

正文

推荐专利

申请号：CN202510209720

申请日期：2025-02-25

公开号：CN120045767A

公开日期：2025-05-27

类型：发明专利

摘要

本发明公开了一种新闻页面数据通用采集方法、装置、设备、介质及产品，涉及新闻页面数据采集技术领域。所述方法是先向目标新闻网站发送HTTP请求以获取新闻网页返回数据，然后在判定存在有动态加载内容时调用浏览器自动化工具Selenium进行在新闻网页所有元素都加载完成后的数据抓取，并将抓取结果作为新闻网页原始数据，再然后针对在DOM树中的各个节点，计算得到对应的文本密度及符号密度，并基于计算结果判断网页内容是否为复杂内容，若是则通过多维度特征分析和基于规则且用于新闻页面解析的大语言模型，定位得到针对新闻页面关键信息的最终提取结果，最后对提取结果进行数据清洗与标准化处理，得到具有统一格式的新闻页面数据并予以输出。

技术关键词

页面关键信息动态加载内容 HTTP请求密度自动化工具文本节点多媒体符号通用采集装置页面数据采集数据处理单元大语言模型历史访问数据解析单元格式元素

系统为您推荐了相关专利信息

应用于探测设备的微调悬停控制方法及控制系统

探测设备悬停控制方法映射算法数据油量检测装置

一种曲面铣削校正量的计算方法

三维模型铣刀计算方法校正转子

粒子滤波损伤扩展预测的分位数观测似然权值更新方法

更新方法参数后验概率分布尺寸累积分布函数

用于项目管理的任务状态自动化切换方法及系统

指标项目管理软件自动化切换方法偏差资源约束条件

基于机器学习的样本数据处理方法和装置

数据处理模型样本数据处理方法深度学习网络样本数据处理装置图像

新闻页面数据通用采集方法、装置、设备、介质及产品

站点导航

APP 下载