摘要
本发明公开了一种针对高动态决策场景智能体探索的强化学习系统及方法,包括正演员‑评论家模型、负演员‑评论家模型、演员‑评论家模型、策略相似度模型和策略动作选择模型,通过使用正向策略和负向策略指导主策略的学习,同时最小化主策略与正向策略的接近程度和最大化主策略与负向策略的接近程度,让主策略以高概率产生高价值动作,低概率产生低价值动作,提升方法的整体性能;同时,在训练过程中通过策略动作选择模型以概率形式选择执行主策略动作、正向策略动作、负向策略动作,增加动作选择的多样性,间接提高探索环境的多样性,最终实现性能提升。
技术关键词
策略
环境状态信息
强化学习方法
强化学习系统
生成动作
编码器
决策
场景
深度神经网络
环境状态预测
类别分布概率
动态
参数
度计算方法
阶段
温度平衡
误差函数
度函数
时序
系统为您推荐了相关专利信息
控制设备
控制策略
服务器
媒体访问控制地址
人工智能模型
数据预测模型
特征提取模型
模态特征
预测电力负荷
数据采集策略
安全监控系统
智能舞台
高清视频监控
安全监控策略
数据可视化