摘要
本发明公开了基于大语言模型与MCP协议的智能爬虫生成方法及系统,属于网络数据采集技术领域,解决了现有技术无法有效整合LLM与浏览器交互协议,导致无法充分发挥LLM在动态网页解析、反爬策略生成环节能力的问题,方法包括基于大语言模型解析所述采集需求并生成标准化的需求描述文档,基于MCP协议实现大语言模型与浏览器的交互,通过爬虫脚本生成系统对页面完整DOM树结构解析处理,对生成的爬虫脚本进行质量校验与智能修复;本发明中通过MCP协议获取浏览器渲染后的完整DOM树及动态数据,且能够调用大语言模型自动分析元素定位策略,从而自适应生成采集脚本,保证了网页数据采集的高效化、智能化与自动化。
技术关键词
大语言模型
DOM树结构
爬虫
脚本
协议
生成方法
浏览器页面
Chrome浏览器
生成系统
鉴权参数
定位策略
定制化数据
校验系统
语义
网络数据采集技术
自然语言
模块
监测页面
非结构化数据存储
系统为您推荐了相关专利信息
依存句法树
大语言模型
数据
依存句法分析
解析句子
机器学习算法
机器学习方法预测
Java类
插件
通信规范
充电设备
充电策略
智能管控方法
车载端
融合特征提取