摘要
本发明提供了一种基于动作掩码的智能体训练方法和系统,涉及人工智能领域,包括:记录专家模型在对抗过程中的决策数据作为示教数据;基于策略和值函数协同模仿机制,根据示教数据对智能体的策略网络进行状态空间至动作空间的映射学习,以赋予智能体初始智能;对智能体实施对抗测试并记录测试胜率,在胜率达标的情况下进入后续强化学习阶段;将测试胜率输入调制Sigmoid函数以生成动作掩码;利用近端策略优化算法,在动作掩码的作用下使用强化学习方法对智能体进行更新。本发明通过设计动作掩码的退化机制,使智能体在训练初期高效避免非法动作的采样,在后期更大胆地探索策略空间,从而显著提升了训练效率和最终决策性能。
技术关键词
智能体训练方法
示教数据
Sigmoid函数
生成动作
策略
强化学习方法
蒙特卡洛方法
退化机制
网络
存储程序指令
指数
训练系统
决策
阶段
参数
存储器
代表
算法
系统为您推荐了相关专利信息
攻击检测模型
事件触发机制
主动攻击检测方法
状态观测模型
策略
种植管理系统
种植管理方法
农作物参数
策略
云服务器
供电控制装置
电压转换模块
模糊隶属度
可控开关
供电控制方法
储能单元
能效提升方法
制动电阻单元
负荷
充放电功率
代码修复方法
大语言模型
代码扫描工具
生成提示词
模版