基于动作掩码的智能体训练方法和系统

AITNT
正文
推荐专利
基于动作掩码的智能体训练方法和系统
申请号:CN202510609081
申请日期:2025-05-13
公开号:CN120124707A
公开日期:2025-06-10
类型:发明专利
摘要
本发明提供了一种基于动作掩码的智能体训练方法和系统,涉及人工智能领域,包括:记录专家模型在对抗过程中的决策数据作为示教数据;基于策略和值函数协同模仿机制,根据示教数据对智能体的策略网络进行状态空间至动作空间的映射学习,以赋予智能体初始智能;对智能体实施对抗测试并记录测试胜率,在胜率达标的情况下进入后续强化学习阶段;将测试胜率输入调制Sigmoid函数以生成动作掩码;利用近端策略优化算法,在动作掩码的作用下使用强化学习方法对智能体进行更新。本发明通过设计动作掩码的退化机制,使智能体在训练初期高效避免非法动作的采样,在后期更大胆地探索策略空间,从而显著提升了训练效率和最终决策性能。
技术关键词
智能体训练方法 示教数据 Sigmoid函数 生成动作 策略 强化学习方法 蒙特卡洛方法 退化机制 网络 存储程序指令 指数 训练系统 决策 阶段 参数 存储器 代表 算法
系统为您推荐了相关专利信息
1
基于移动目标防御与事件触发的主动攻击检测方法、系统
攻击检测模型 事件触发机制 主动攻击检测方法 状态观测模型 策略
2
一种基于多要素表型的农作物生长AI大模型种植管理系统
种植管理系统 种植管理方法 农作物参数 策略 云服务器
3
一种皮卫星的供电控制方法、装置及供电系统
供电控制装置 电压转换模块 模糊隶属度 可控开关 供电控制方法
4
适配弱电网随机冲击负荷的目标SOC调整及能效提升方法
储能单元 能效提升方法 制动电阻单元 负荷 充放电功率
5
一种基于大语言模型的代码修复方法、装置、设备及介质
代码修复方法 大语言模型 代码扫描工具 生成提示词 模版
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号