摘要
本发明公开了一种新闻页面数据通用采集方法、装置、设备、介质及产品,涉及新闻页面数据采集技术领域。所述方法是先向目标新闻网站发送HTTP请求以获取新闻网页返回数据,然后在判定存在有动态加载内容时调用浏览器自动化工具Selenium进行在新闻网页所有元素都加载完成后的数据抓取,并将抓取结果作为新闻网页原始数据,再然后针对在DOM树中的各个节点,计算得到对应的文本密度及符号密度,并基于计算结果判断网页内容是否为复杂内容,若是则通过多维度特征分析和基于规则且用于新闻页面解析的大语言模型,定位得到针对新闻页面关键信息的最终提取结果,最后对提取结果进行数据清洗与标准化处理,得到具有统一格式的新闻页面数据并予以输出。
技术关键词
页面关键信息
动态加载内容
HTTP请求
密度
自动化工具
文本
节点
多媒体
符号
通用采集装置
页面数据采集
数据处理单元
大语言模型
历史访问数据
解析单元
格式
元素
系统为您推荐了相关专利信息
探测设备
悬停控制方法
映射算法
数据
油量检测装置
指标
项目管理软件
自动化切换方法
偏差
资源约束条件
数据处理模型
样本数据处理方法
深度学习网络
样本数据处理装置
图像