强化学习模型的训练方法、装置、设备及介质

正文

推荐专利

申请号：CN202511020938

申请日期：2025-07-23

公开号：CN120874956A

公开日期：2025-10-31

类型：发明专利

摘要

本公开涉及人工智能技术领域，提供了一种强化学习模型的训练方法、装置、设备及介质，获取智能体采用待训练的强化学习模型所提供的历史策略与环境进行交互的经验数据，再利用经验数据确定待训练的强化学习模型在历史策略与当前策略之间的原始动作概率比，根据当前剪切系数，对原始动作概率比进行剪切约束，得到剪切动作概率比，当前剪切系数是通过策略散度与目标散度之间的差值进行更新得到的，策略散度通过剪切动作概率比确定，根据经验数据与剪切动作概率比确定训练损失，并利用训练损失对待训练的强化学习模型的当前策略进行更新训练，本公开通过优化剪切约束机制，实现当前剪切系数的动态调整，提高模型的训练效率，改善模型的场景适应性。

技术关键词

强化学习模型策略数据采集单元处理器可读存储介质人工智能技术训练装置电子设备数据总线存储器程序计算机动态风险机制场景

系统为您推荐了相关专利信息

耦合人体运动捕捉和肌骨动力学解算的方法和装置

地面反作用力人体动力学人体运动捕捉力矩 Unity3D游戏引擎

一种基于BIM的装配式建筑构件管理方法及系统

建筑信息模型装配式建筑构件预制构件阶段管理方法

一种低秩完备矩阵预测AKI的优化方法及系统

XGBoost模型矩阵计算机可执行指令样本序列

一种胰腺导管腺癌IL-33+CD4+FoxP3+Treg细胞亚群在胰腺导管腺癌预后预测中的应用

胰腺导管腺癌化疗敏感性预测石蜡切片生物标志物样本

一种用于紧固件的数控加工中心及加工方法

轮廓图像像素点紧固件控制策略刀具路径

强化学习模型的训练方法、装置、设备及介质

站点导航

APP 下载