摘要
一种面向稀疏奖励环境的协同知识融合强化学习方法,涉及协同知识融合的强化学习方法领域。通过构建轻量化协同知识融合模型和动态奖励重塑机制解决稀疏奖励环境下智能体探索效率低下、策略收敛困难的问题。本发明的步骤是:搭建包含策略网络和值网络的强化学习框架;设计动作空间突变监督机制和轻量化协同知识融合模型,检测到策略不稳定时生成平滑替代动作;结合任务目标与动态约束设计奖励函数,通过子目标势能差和知识融合激活奖励实现奖励重塑。本发明在稀疏奖励环境中能为智能体提供有效的中间反馈,提升探索效率,降低收敛时间,增强策略的稳定性和跨场景迁移能力,为机器人控制、多智能体博弈等稀疏奖励场景提供有效的解决方案。
技术关键词
强化学习方法
策略
强化学习框架
网络
生成动作
连续动作空间
动态
参数
概率密度函数
机器人控制
时序
偏差
广义
误差
索引
校准
鲁棒性
因子
机制
场景
系统为您推荐了相关专利信息
预取算法
存储系统数据
管理器
记忆单元
算法模型
收益分配模型
充放电功率
优化调度策略
分布式储能系统
配电网优化调度技术
矿井水文地质
模型构建系统
模型构建方法
地质统计学插值
门控循环单元