摘要
本发明涉及人工智能领域,涉及一种基于贝塔概率分布重参数化强化学习系统及学习方法。本发明通过神经网络子系统将环境状态参数输入神经网络;经过全连接层和非线性变换层处理后,得到贝塔分布的均值和偏差参数,贝塔分布参数计算子系统基于贝塔分布的均值和偏差参数,计算得到贝塔分布的形状参数。贝塔分布采样子系统根据贝塔分布的形状参数构造贝塔概率分布,并根据得到的贝塔概率分布对动作进行采样。通过强化学习训练环境子系统,与环境互动后得到回报,采用优化算法更新神经网络子系统中的神经网络参数,通过探索获得更好的策略。本方法可以用于在轨及离轨强化学习,提高样本利用效率并且获得更高的回报。
技术关键词
强化学习系统
子系统
学习方法
非线性
神经网络参数
概率密度函数
偏差
正则化方法
随机梯度下降
超参数
定义
策略更新
算法
分段
计算方法
因子
样本