一种面向稀疏奖励环境的协同知识融合强化学习方法

正文

推荐专利

申请号：CN202511121814

申请日期：2025-08-12

公开号：CN120633760A

公开日期：2025-09-12

类型：发明专利

摘要

一种面向稀疏奖励环境的协同知识融合强化学习方法，涉及协同知识融合的强化学习方法领域。通过构建轻量化协同知识融合模型和动态奖励重塑机制解决稀疏奖励环境下智能体探索效率低下、策略收敛困难的问题。本发明的步骤是：搭建包含策略网络和值网络的强化学习框架；设计动作空间突变监督机制和轻量化协同知识融合模型，检测到策略不稳定时生成平滑替代动作；结合任务目标与动态约束设计奖励函数，通过子目标势能差和知识融合激活奖励实现奖励重塑。本发明在稀疏奖励环境中能为智能体提供有效的中间反馈，提升探索效率，降低收敛时间，增强策略的稳定性和跨场景迁移能力，为机器人控制、多智能体博弈等稀疏奖励场景提供有效的解决方案。

技术关键词

强化学习方法策略强化学习框架网络生成动作连续动作空间动态参数概率密度函数机器人控制时序偏差广义误差索引校准鲁棒性因子机制场景

系统为您推荐了相关专利信息

一种存储系统数据智能预取的方法

预取算法存储系统数据管理器记忆单元算法模型

基于虚拟机器人的工作角色模拟方法、系统及虚拟机器人

角色模拟方法机器人项目习惯逻辑

考虑多主体合作博弈的主动配电网优化调度方法及系统

收益分配模型充放电功率优化调度策略分布式储能系统配电网优化调度技术

基于大语言模型深度思考及内容检索的调研报告生成方法

报告生成方法大语言模型关键词摘要检索策略

一种矿井水文地质模型构建系统及方法

矿井水文地质模型构建系统模型构建方法地质统计学插值门控循环单元

一种面向稀疏奖励环境的协同知识融合强化学习方法

站点导航

APP 下载