一种基于生成式智能的强化学习策略表征方法及系统

正文

推荐专利

申请号：CN202410916285

申请日期：2024-07-09

公开号：CN118821902A

公开日期：2024-10-22

类型：发明专利

摘要

本发明公开了一种基于生成式智能的强化学习策略表征方法及系统，随机初始化智能体的策略网络和价值网络Wθ，并随机初始化对应的目标网络Wθ′和策略网络使用扩散模型进行建模；从预先准备的数据集D中采样小样本数据；根据小样本数据中轨迹的状态，通过策略网络采样并计算一个动作a；基于动作a计算Q值；根据计算的Q值更新价值网络Qθ，每更新价值网络QθC次后，更新策略网络并将价值网络Qθ的参数同步到目标网络Qθ′，直至模型收敛或到达固定轮次。本发明能够显著提升学习效率，并大幅增强了智能体的泛化能力和适应性，通过精准近似复杂数据分布，实现了更广泛应用场景中的优异性能。

技术关键词

强化学习策略表征方法离散状态空间样本轨迹网络同步表征系统模型更新随机噪声数据分布采样模块参数数学矩阵场景

系统为您推荐了相关专利信息

一种机械臂的按摩控制方法、装置、系统及存储介质

按摩控制方法笛卡尔加速度逆运动学驱动机械臂

一种基于卷积神经网络的医疗辅助诊断方法及系统

医疗辅助诊断方法卷积神经网络模型医学影像数据电子病历正则化方法

基于智能算法的盾构下穿既有隧道变形优化方法及设备

隧道衬砌非线性映射关系智能算法隧道施工阶段螺旋机

空调及其控制方法、装置、存储介质和计算机程序产品

人体骨架信息空调控制参数雷达摄像设备图像

基于改进沙猫群优化算法的机械臂时间最优轨迹规划方法

关节算法坐标系机械臂轨迹规划多项式

一种基于生成式智能的强化学习策略表征方法及系统

站点导航

APP 下载