摘要
本发明涉及强化学习技术领域,具体涉及一种针对非对抗性任务的自学习方法、装置、设备及介质,所述方法包括:步骤1:初始化非对抗性任务的决策神经网络;步骤2:基于当前所述决策神经网络执行MCTS状态搜索算法,获取第三方效能评分并记录路径信息;步骤3:根据所述第三方效能评分及路径信息对决策神经网络进行训练优化;步骤4:重复并行执行步骤2‑3,直至所述决策神经网络满足触发终止条件。本申请提供的针对非对抗性任务的自学习方法不会受限于任务场景,针对所有的非对抗性任务都能较好的结果,可根据任务场景进行适应修改;针对不同的非对抗性任务都能快速从0逐步探索出最短解,最大程度的避免重复计算,提高探索效率。
技术关键词
学习方法
决策
阶段
大语言模型
搜索算法
节点
效能
强化学习技术
网络
路径规划算法
文本
代表
学习装置
进化算法
蒙特卡洛
传播算法
预测误差
机器人
电子设备
程序