一种基于贝塔概率分布重参数化强化学习系统及学习方法

正文

推荐专利

申请号：CN202411966793

申请日期：2024-12-30

公开号：CN120068986A

公开日期：2025-05-30

类型：发明专利

摘要

本发明涉及人工智能领域，涉及一种基于贝塔概率分布重参数化强化学习系统及学习方法。本发明通过神经网络子系统将环境状态参数输入神经网络；经过全连接层和非线性变换层处理后，得到贝塔分布的均值和偏差参数，贝塔分布参数计算子系统基于贝塔分布的均值和偏差参数，计算得到贝塔分布的形状参数。贝塔分布采样子系统根据贝塔分布的形状参数构造贝塔概率分布，并根据得到的贝塔概率分布对动作进行采样。通过强化学习训练环境子系统，与环境互动后得到回报，采用优化算法更新神经网络子系统中的神经网络参数，通过探索获得更好的策略。本方法可以用于在轨及离轨强化学习，提高样本利用效率并且获得更高的回报。

技术关键词

强化学习系统子系统学习方法非线性神经网络参数概率密度函数偏差正则化方法随机梯度下降超参数定义策略更新算法分段计算方法因子样本

一种基于贝塔概率分布重参数化强化学习系统及学习方法

站点导航

APP 下载