基于分层式复合奖励强化学习的大语言模型XPath生成方法

AITNT
正文
推荐专利
基于分层式复合奖励强化学习的大语言模型XPath生成方法
申请号:CN202511563413
申请日期:2025-10-30
公开号:CN121030536A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了基于分层式复合奖励强化学习的大语言模型XPath生成方法,具体包括以下步骤:步骤1:获取目标网页的HTML源码和页面元素信息并进行数据清洗,得到包含DOM层级顺序结构及元素属性值的结构化数据;对数据清洗后的结构化数据进行数据标注,得到标注数据集;步骤2:选用基础模型,使用标注数据集对基础模型进行监督微调,将经监督微调后的基础模型作为策略模型;构建分层式复合奖励函数进行强化学习微调,使得策略模型的输出层级与输入DOM层级对齐,得到经两阶段微调的最终模型;步骤3:生成标准XPath字符串,并输出与输入DOM层级匹配的结构化数据,以展示标准XPath字符串的逐层构建逻辑。本发明能够生成稳定的XPath并实现生成过程完全透明和可追溯。
技术关键词
生成方法 层级 分层 大语言模型 列表 结构化数据格式 输出序列长度 策略 元素 基础 损失函数优化 页面 预测误差 键值 逻辑 阶段 鲁棒性 爬虫 算法
系统为您推荐了相关专利信息
1
数据传输方法及装置
列表 数据传输方法 计算机程序指令 关系 收发模块
2
一种联邦大语言模型的训练方法、装置、设备及介质
大语言模型 客户端 参数 矩阵 计算机可执行指令
3
库存需求量的预测方法、装置及电子设备
时间序列预测模型 预测订单量 基准 矩阵 参数
4
一种分布感知的测试自适应方法、系统及终端
深度学习模型 分布特征 样本 列表 异质
5
视频生成方法、装置、计算机设备及存储介质
语义结构 视频生成方法 文本 时序特征 计算机设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号