一种针对非对抗性任务的自学习方法、装置、设备及介质

正文

推荐专利

申请号：CN202411492081

申请日期：2024-10-24

公开号：CN119623563A

公开日期：2025-03-14

类型：发明专利

摘要

本发明涉及强化学习技术领域，具体涉及一种针对非对抗性任务的自学习方法、装置、设备及介质，所述方法包括：步骤1：初始化非对抗性任务的决策神经网络；步骤2：基于当前所述决策神经网络执行MCTS状态搜索算法，获取第三方效能评分并记录路径信息；步骤3：根据所述第三方效能评分及路径信息对决策神经网络进行训练优化；步骤4：重复并行执行步骤2‑3，直至所述决策神经网络满足触发终止条件。本申请提供的针对非对抗性任务的自学习方法不会受限于任务场景，针对所有的非对抗性任务都能较好的结果，可根据任务场景进行适应修改；针对不同的非对抗性任务都能快速从0逐步探索出最短解，最大程度的避免重复计算，提高探索效率。

技术关键词

学习方法决策阶段大语言模型搜索算法节点效能强化学习技术网络路径规划算法文本代表学习装置进化算法蒙特卡洛传播算法预测误差机器人电子设备程序

一种针对非对抗性任务的自学习方法、装置、设备及介质

站点导航

APP 下载