摘要
本公开涉及人工智能技术领域,提供了一种强化学习模型的训练方法、装置、设备及介质,获取智能体采用待训练的强化学习模型所提供的历史策略与环境进行交互的经验数据,再利用经验数据确定待训练的强化学习模型在历史策略与当前策略之间的原始动作概率比,根据当前剪切系数,对原始动作概率比进行剪切约束,得到剪切动作概率比,当前剪切系数是通过策略散度与目标散度之间的差值进行更新得到的,策略散度通过剪切动作概率比确定,根据经验数据与剪切动作概率比确定训练损失,并利用训练损失对待训练的强化学习模型的当前策略进行更新训练,本公开通过优化剪切约束机制,实现当前剪切系数的动态调整,提高模型的训练效率,改善模型的场景适应性。
技术关键词
强化学习模型
策略
数据采集单元
处理器
可读存储介质
人工智能技术
训练装置
电子设备
数据总线
存储器
程序
计算机
动态
风险
机制
场景
系统为您推荐了相关专利信息
地面反作用力
人体动力学
人体运动捕捉
力矩
Unity3D游戏引擎
建筑信息模型
装配式建筑构件
预制构件
阶段
管理方法
XGBoost模型
矩阵
计算机可执行指令
样本
序列
胰腺导管腺癌
化疗敏感性预测
石蜡切片
生物标志物
样本