一种基于贝塔概率分布重参数化强化学习系统及学习方法

AITNT
正文
推荐专利
一种基于贝塔概率分布重参数化强化学习系统及学习方法
申请号:CN202411966793
申请日期:2024-12-30
公开号:CN120068986A
公开日期:2025-05-30
类型:发明专利
摘要
本发明涉及人工智能领域,涉及一种基于贝塔概率分布重参数化强化学习系统及学习方法。本发明通过神经网络子系统将环境状态参数输入神经网络;经过全连接层和非线性变换层处理后,得到贝塔分布的均值和偏差参数,贝塔分布参数计算子系统基于贝塔分布的均值和偏差参数,计算得到贝塔分布的形状参数。贝塔分布采样子系统根据贝塔分布的形状参数构造贝塔概率分布,并根据得到的贝塔概率分布对动作进行采样。通过强化学习训练环境子系统,与环境互动后得到回报,采用优化算法更新神经网络子系统中的神经网络参数,通过探索获得更好的策略。本方法可以用于在轨及离轨强化学习,提高样本利用效率并且获得更高的回报。
技术关键词
强化学习系统 子系统 学习方法 非线性 神经网络参数 概率密度函数 偏差 正则化方法 随机梯度下降 超参数 定义 策略更新 算法 分段 计算方法 因子 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号