一种基于奖励反馈的行动类模型优化方法

AITNT
正文
推荐专利
一种基于奖励反馈的行动类模型优化方法
申请号:CN202411643243
申请日期:2024-11-18
公开号:CN119539022A
公开日期:2025-02-28
类型:发明专利
摘要
本发明涉及优化方法技术领域,尤其涉及一种基于奖励反馈的行动类模型优化方法,其步骤如下:SI:构建多层次奖励函数;S2:开始与初始化;S3:观察当前web环境状态;S4:行动执行;S5:环境反馈;S6:构建Reward模型奖励信号处理模块;S7:奖励信号处理;S8:架构行动评价网络;S9:行动评价;S10:策略更新;S11:判断是否完成任务或达到终止条件;本发明建立了一种更全面的行动反馈机制,不仅考虑最终奖励,还充分利用中间行动的效果,对智能体的行动进行更细致的评估和反馈,引导智能体更合理地探索和利用环境,其行动反馈机制鼓励智能体尝试更多可能有助于实现目标的行动,同时避免无效或有害的行动,进而使得智能体在web环境中的探索更加高效。
技术关键词
模型优化方法 信号处理模块 强化学习方法 网络连接参数 策略更新 多层次 移动平均滤波 滤波算法 状态更新 强化学习算法 自动化工具 图像识别技术 表单 页面 梯度算法
系统为您推荐了相关专利信息
1
一种iTOF相机的角度测量方法、装置、介质及设备
标靶 角度测量方法 相机 数据 半挂车
2
一种双路输出角度传感器电路
角度传感器电路 芯片模块 线性稳压芯片 信号处理模块 稳压单元
3
Ka波段卫星小站收发机系统
收发机系统 Ka波段卫星小站收发机 系统控制模块 信号处理模块 电源管理模块
4
基于分布式边云协同的多模态数据动态融合方法及系统
语义实体 策略 语义特征 跨模态 动态融合方法
5
一种无线网络中基于TD3的空中超表面辅助无线隐蔽通信方法及系统
隐蔽通信方法 隐蔽通信系统 导向矢量模型 最大化系统 信息数据处理终端
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号