针对高动态决策场景智能体探索的强化学习系统及方法

正文

推荐专利

申请号：CN202510067613

申请日期：2025-01-16

公开号：CN119886272A

公开日期：2025-04-25

类型：发明专利

摘要

本发明公开了一种针对高动态决策场景智能体探索的强化学习系统及方法，包括正演员‑评论家模型、负演员‑评论家模型、演员‑评论家模型、策略相似度模型和策略动作选择模型，通过使用正向策略和负向策略指导主策略的学习，同时最小化主策略与正向策略的接近程度和最大化主策略与负向策略的接近程度，让主策略以高概率产生高价值动作，低概率产生低价值动作，提升方法的整体性能；同时，在训练过程中通过策略动作选择模型以概率形式选择执行主策略动作、正向策略动作、负向策略动作，增加动作选择的多样性，间接提高探索环境的多样性，最终实现性能提升。

技术关键词

策略环境状态信息强化学习方法强化学习系统生成动作编码器决策场景深度神经网络环境状态预测类别分布概率动态参数度计算方法阶段温度平衡误差函数度函数时序

系统为您推荐了相关专利信息

衰弱指数计算方法、装置、电子设备及存储介质

术语风险指数计算方法语义网络

一种矿鸿设备的控制方法及设备

控制设备控制策略服务器媒体访问控制地址人工智能模型

一种基于云计算的重症监护数据远程提交排序方法和系统

排序方法构建深度神经网络数据策略决策

电力负荷数据的处理方法、装置、电子设备及存储介质

数据预测模型特征提取模型模态特征预测电力负荷数据采集策略

一种基于多传感器融合与人工智能的智能舞台安全监控系统

安全监控系统智能舞台高清视频监控安全监控策略数据可视化

针对高动态决策场景智能体探索的强化学习系统及方法

站点导航

APP 下载