一种基于奖励反馈的行动类模型优化方法

正文

推荐专利

一种基于奖励反馈的行动类模型优化方法

申请号：CN202411643243

申请日期：2024-11-18

公开号：CN119539022A

公开日期：2025-02-28

类型：发明专利

摘要

本发明涉及优化方法技术领域，尤其涉及一种基于奖励反馈的行动类模型优化方法，其步骤如下：SI：构建多层次奖励函数；S2：开始与初始化；S3：观察当前web环境状态；S4：行动执行；S5：环境反馈；S6：构建Reward模型奖励信号处理模块；S7：奖励信号处理；S8：架构行动评价网络；S9：行动评价；S10：策略更新；S11：判断是否完成任务或达到终止条件；本发明建立了一种更全面的行动反馈机制，不仅考虑最终奖励，还充分利用中间行动的效果，对智能体的行动进行更细致的评估和反馈，引导智能体更合理地探索和利用环境，其行动反馈机制鼓励智能体尝试更多可能有助于实现目标的行动，同时避免无效或有害的行动，进而使得智能体在web环境中的探索更加高效。

技术关键词

模型优化方法信号处理模块强化学习方法网络连接参数策略更新多层次移动平均滤波滤波算法状态更新强化学习算法自动化工具图像识别技术表单页面梯度算法

系统为您推荐了相关专利信息

一种iTOF相机的角度测量方法、装置、介质及设备

标靶角度测量方法相机数据半挂车

一种双路输出角度传感器电路

角度传感器电路芯片模块线性稳压芯片信号处理模块稳压单元

Ka波段卫星小站收发机系统

收发机系统 Ka波段卫星小站收发机系统控制模块信号处理模块电源管理模块

基于分布式边云协同的多模态数据动态融合方法及系统

语义实体策略语义特征跨模态动态融合方法

一种无线网络中基于TD3的空中超表面辅助无线隐蔽通信方法及系统

隐蔽通信方法隐蔽通信系统导向矢量模型最大化系统信息数据处理终端

一种基于奖励反馈的行动类模型优化方法

站点导航

APP 下载