一种基于大模型的可视化网页数据爬取方法及系统

AITNT
正文
推荐专利
一种基于大模型的可视化网页数据爬取方法及系统
申请号:CN202510744643
申请日期:2025-06-05
公开号:CN120632181A
公开日期:2025-09-12
类型:发明专利
摘要
本发明涉及网络信息提取技术领域,具体为一种基于大模型的可视化网页数据爬取方法及系统,包括以下步骤:自动化浏览与截图,图像预处理,OCR识别,多模态大模型分析,结果融合,大语言模型解析,数据存储与输出;有益效果为:通过截图与多模态分析,可应对各种图片化或动态化网页,无需依赖DOM结构;OCR与多模态大模型互补,显著提高不同字体、复杂排版及图表中数据的提取准确度;模拟真实浏览行为并结合人工验证,可有效规避常见反爬策略;大语言模型按Prompt智能重组页面信息,保证输出数据的完整性与逻辑性。
技术关键词
数据爬取方法 可视化网页 分布式任务调度框架 分布式爬虫框架 加权融合算法 系统容错 文档型数据库 网络信息提取技术 置信度阈值 分布式文件系统 大语言模型 数据存储 实时数据 关系型数据库 图像增强 告警机制 人机协同 生成页面 表格
系统为您推荐了相关专利信息
1
一种采区终末工作面导水裂隙带探测和解析方法
解析方法 导水裂隙带高度 贝叶斯网络模型 光纤传感器 井下微震检测
2
一种自动热喷锌装置
光谱分析仪 位置调节组件 喷枪组 控制芯片 伺服电机
3
一种基于车路云协同的场端感知定位方法、系统及介质
光栅传感器 地图 加权融合算法 路侧单元 信息处理单元
4
基于数字孪生和强化学习的海上风电预报运维方法及系统
风电机组运行数据 运维方法 数字孪生模型 运维策略 强化学习算法
5
一种集成三相温控器的开水器节能控制方法及系统
三相温控器 节能控制方法 开水器 需求预测模型 功率值
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号