一种针对非对抗性任务的自学习方法、装置、设备及介质

AITNT
正文
推荐专利
一种针对非对抗性任务的自学习方法、装置、设备及介质
申请号:CN202411492081
申请日期:2024-10-24
公开号:CN119623563A
公开日期:2025-03-14
类型:发明专利
摘要
本发明涉及强化学习技术领域,具体涉及一种针对非对抗性任务的自学习方法、装置、设备及介质,所述方法包括:步骤1:初始化非对抗性任务的决策神经网络;步骤2:基于当前所述决策神经网络执行MCTS状态搜索算法,获取第三方效能评分并记录路径信息;步骤3:根据所述第三方效能评分及路径信息对决策神经网络进行训练优化;步骤4:重复并行执行步骤2‑3,直至所述决策神经网络满足触发终止条件。本申请提供的针对非对抗性任务的自学习方法不会受限于任务场景,针对所有的非对抗性任务都能较好的结果,可根据任务场景进行适应修改;针对不同的非对抗性任务都能快速从0逐步探索出最短解,最大程度的避免重复计算,提高探索效率。
技术关键词
学习方法 决策 阶段 大语言模型 搜索算法 节点 效能 强化学习技术 网络 路径规划算法 文本 代表 学习装置 进化算法 蒙特卡洛 传播算法 预测误差 机器人 电子设备 程序
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号