摘要
本发明公开了基于分层式复合奖励强化学习的大语言模型XPath生成方法,具体包括以下步骤:步骤1:获取目标网页的HTML源码和页面元素信息并进行数据清洗,得到包含DOM层级顺序结构及元素属性值的结构化数据;对数据清洗后的结构化数据进行数据标注,得到标注数据集;步骤2:选用基础模型,使用标注数据集对基础模型进行监督微调,将经监督微调后的基础模型作为策略模型;构建分层式复合奖励函数进行强化学习微调,使得策略模型的输出层级与输入DOM层级对齐,得到经两阶段微调的最终模型;步骤3:生成标准XPath字符串,并输出与输入DOM层级匹配的结构化数据,以展示标准XPath字符串的逐层构建逻辑。本发明能够生成稳定的XPath并实现生成过程完全透明和可追溯。
技术关键词
生成方法
层级
分层
大语言模型
列表
结构化数据格式
输出序列长度
策略
元素
基础
损失函数优化
页面
预测误差
键值
逻辑
阶段
鲁棒性
爬虫
算法
系统为您推荐了相关专利信息
列表
数据传输方法
计算机程序指令
关系
收发模块
语义结构
视频生成方法
文本
时序特征
计算机设备