摘要
本发明提出了一种基于大语言模型的网站数据收集策略分析系统和方法,属于网站数据收集策略分析技术领域。本发明读取目标网站域名和预定义的数据收集条款,识别并爬取相关页面内容作为候选页面,以抽取高置信度数据收集策略页面;然后基于大语言模型的网站数据收集条款覆盖情况分析模块以切分的页面片段为输入,分析目标网站遵循及未遵循的数据收集条款;基于大语言模型的网站个人数据收集实践分析模块以相同片段为输入,分析个人信息种类、收集意图及第三方服务种类;最后整合条款覆盖和个人数据实践分析结果,生成最终的数据收集策略分析报告。本发明具备完善的理解分析能力、推理能力,可实现对网站数据收集策略实践的准确分析和归纳。
技术关键词
网站数据收集
数据收集策略
大语言模型
策略分析系统
策略分析方法
分析模块
机器学习分类器
页面内容
关键词
计算机电子设备
意图
随机森林模型
存储计算机程序
格式
报告
处理器
输入模块
输出模块