摘要
本发明涉及网络信息提取技术领域,具体为一种基于大模型的可视化网页数据爬取方法及系统,包括以下步骤:自动化浏览与截图,图像预处理,OCR识别,多模态大模型分析,结果融合,大语言模型解析,数据存储与输出;有益效果为:通过截图与多模态分析,可应对各种图片化或动态化网页,无需依赖DOM结构;OCR与多模态大模型互补,显著提高不同字体、复杂排版及图表中数据的提取准确度;模拟真实浏览行为并结合人工验证,可有效规避常见反爬策略;大语言模型按Prompt智能重组页面信息,保证输出数据的完整性与逻辑性。
技术关键词
数据爬取方法
可视化网页
分布式任务调度框架
分布式爬虫框架
加权融合算法
系统容错
文档型数据库
网络信息提取技术
置信度阈值
分布式文件系统
大语言模型
数据存储
实时数据
关系型数据库
图像增强
告警机制
人机协同
生成页面
表格
系统为您推荐了相关专利信息
解析方法
导水裂隙带高度
贝叶斯网络模型
光纤传感器
井下微震检测
光谱分析仪
位置调节组件
喷枪组
控制芯片
伺服电机
光栅传感器
地图
加权融合算法
路侧单元
信息处理单元
风电机组运行数据
运维方法
数字孪生模型
运维策略
强化学习算法
三相温控器
节能控制方法
开水器
需求预测模型
功率值