基于动作掩码的智能体训练方法和系统

正文

推荐专利

基于动作掩码的智能体训练方法和系统

申请号：CN202510609081

申请日期：2025-05-13

公开号：CN120124707A

公开日期：2025-06-10

类型：发明专利

摘要

本发明提供了一种基于动作掩码的智能体训练方法和系统，涉及人工智能领域，包括：记录专家模型在对抗过程中的决策数据作为示教数据；基于策略和值函数协同模仿机制，根据示教数据对智能体的策略网络进行状态空间至动作空间的映射学习，以赋予智能体初始智能；对智能体实施对抗测试并记录测试胜率，在胜率达标的情况下进入后续强化学习阶段；将测试胜率输入调制Sigmoid函数以生成动作掩码；利用近端策略优化算法，在动作掩码的作用下使用强化学习方法对智能体进行更新。本发明通过设计动作掩码的退化机制，使智能体在训练初期高效避免非法动作的采样，在后期更大胆地探索策略空间，从而显著提升了训练效率和最终决策性能。

技术关键词

智能体训练方法示教数据 Sigmoid函数生成动作策略强化学习方法蒙特卡洛方法退化机制网络存储程序指令指数训练系统决策阶段参数存储器代表算法

系统为您推荐了相关专利信息

基于移动目标防御与事件触发的主动攻击检测方法、系统

攻击检测模型事件触发机制主动攻击检测方法状态观测模型策略

一种基于多要素表型的农作物生长AI大模型种植管理系统

种植管理系统种植管理方法农作物参数策略云服务器

一种皮卫星的供电控制方法、装置及供电系统

供电控制装置电压转换模块模糊隶属度可控开关供电控制方法

适配弱电网随机冲击负荷的目标SOC调整及能效提升方法

储能单元能效提升方法制动电阻单元负荷充放电功率

一种基于大语言模型的代码修复方法、装置、设备及介质

代码修复方法大语言模型代码扫描工具生成提示词模版

基于动作掩码的智能体训练方法和系统

站点导航

APP 下载