一种基于大模型的可视化网页数据爬取方法及系统

正文

推荐专利

申请号：CN202510744643

申请日期：2025-06-05

公开号：CN120632181A

公开日期：2025-09-12

类型：发明专利

摘要

本发明涉及网络信息提取技术领域，具体为一种基于大模型的可视化网页数据爬取方法及系统，包括以下步骤：自动化浏览与截图，图像预处理，OCR识别，多模态大模型分析，结果融合，大语言模型解析，数据存储与输出；有益效果为：通过截图与多模态分析，可应对各种图片化或动态化网页，无需依赖DOM结构；OCR与多模态大模型互补，显著提高不同字体、复杂排版及图表中数据的提取准确度；模拟真实浏览行为并结合人工验证，可有效规避常见反爬策略；大语言模型按Prompt智能重组页面信息，保证输出数据的完整性与逻辑性。

技术关键词

数据爬取方法可视化网页分布式任务调度框架分布式爬虫框架加权融合算法系统容错文档型数据库网络信息提取技术置信度阈值分布式文件系统大语言模型数据存储实时数据关系型数据库图像增强告警机制人机协同生成页面表格

系统为您推荐了相关专利信息

一种采区终末工作面导水裂隙带探测和解析方法

解析方法导水裂隙带高度贝叶斯网络模型光纤传感器井下微震检测

一种自动热喷锌装置

光谱分析仪位置调节组件喷枪组控制芯片伺服电机

一种基于车路云协同的场端感知定位方法、系统及介质

光栅传感器地图加权融合算法路侧单元信息处理单元

基于数字孪生和强化学习的海上风电预报运维方法及系统

风电机组运行数据运维方法数字孪生模型运维策略强化学习算法

一种集成三相温控器的开水器节能控制方法及系统

三相温控器节能控制方法开水器需求预测模型功率值

一种基于大模型的可视化网页数据爬取方法及系统

站点导航

APP 下载