摘要
本发明公开了一种基于生成式智能的强化学习策略表征方法及系统,随机初始化智能体的策略网络和价值网络Wθ,并随机初始化对应的目标网络Wθ′和策略网络使用扩散模型进行建模;从预先准备的数据集D中采样小样本数据;根据小样本数据中轨迹的状态,通过策略网络采样并计算一个动作a;基于动作a计算Q值;根据计算的Q值更新价值网络Qθ,每更新价值网络QθC次后,更新策略网络并将价值网络Qθ的参数同步到目标网络Qθ′,直至模型收敛或到达固定轮次。本发明能够显著提升学习效率,并大幅增强了智能体的泛化能力和适应性,通过精准近似复杂数据分布,实现了更广泛应用场景中的优异性能。
技术关键词
强化学习策略
表征方法
离散状态空间
样本
轨迹
网络同步
表征系统
模型更新
随机噪声
数据分布
采样模块
参数
数学
矩阵
场景
系统为您推荐了相关专利信息
按摩控制方法
笛卡尔
加速度
逆运动学
驱动机械臂
医疗辅助诊断方法
卷积神经网络模型
医学影像数据
电子病历
正则化方法
隧道衬砌
非线性映射关系
智能算法
隧道施工阶段
螺旋机