新闻页面数据通用采集方法、装置、设备、介质及产品

AITNT
正文
推荐专利
新闻页面数据通用采集方法、装置、设备、介质及产品
申请号:CN202510209720
申请日期:2025-02-25
公开号:CN120045767A
公开日期:2025-05-27
类型:发明专利
摘要
本发明公开了一种新闻页面数据通用采集方法、装置、设备、介质及产品,涉及新闻页面数据采集技术领域。所述方法是先向目标新闻网站发送HTTP请求以获取新闻网页返回数据,然后在判定存在有动态加载内容时调用浏览器自动化工具Selenium进行在新闻网页所有元素都加载完成后的数据抓取,并将抓取结果作为新闻网页原始数据,再然后针对在DOM树中的各个节点,计算得到对应的文本密度及符号密度,并基于计算结果判断网页内容是否为复杂内容,若是则通过多维度特征分析和基于规则且用于新闻页面解析的大语言模型,定位得到针对新闻页面关键信息的最终提取结果,最后对提取结果进行数据清洗与标准化处理,得到具有统一格式的新闻页面数据并予以输出。
技术关键词
页面关键信息 动态加载内容 HTTP请求 密度 自动化工具 文本 节点 多媒体 符号 通用采集装置 页面数据采集 数据处理单元 大语言模型 历史访问数据 解析单元 格式 元素
系统为您推荐了相关专利信息
1
应用于探测设备的微调悬停控制方法及控制系统
探测设备 悬停控制方法 映射算法 数据 油量检测装置
2
一种曲面铣削校正量的计算方法
三维模型 铣刀 计算方法 校正 转子
3
粒子滤波损伤扩展预测的分位数观测似然权值更新方法
更新方法 参数 后验概率分布 尺寸 累积分布函数
4
用于项目管理的任务状态自动化切换方法及系统
指标 项目管理软件 自动化切换方法 偏差 资源约束条件
5
基于机器学习的样本数据处理方法和装置
数据处理模型 样本数据处理方法 深度学习网络 样本数据处理装置 图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号