一种面向稀疏奖励环境的协同知识融合强化学习方法

AITNT
正文
推荐专利
一种面向稀疏奖励环境的协同知识融合强化学习方法
申请号:CN202511121814
申请日期:2025-08-12
公开号:CN120633760A
公开日期:2025-09-12
类型:发明专利
摘要
一种面向稀疏奖励环境的协同知识融合强化学习方法,涉及协同知识融合的强化学习方法领域。通过构建轻量化协同知识融合模型和动态奖励重塑机制解决稀疏奖励环境下智能体探索效率低下、策略收敛困难的问题。本发明的步骤是:搭建包含策略网络和值网络的强化学习框架;设计动作空间突变监督机制和轻量化协同知识融合模型,检测到策略不稳定时生成平滑替代动作;结合任务目标与动态约束设计奖励函数,通过子目标势能差和知识融合激活奖励实现奖励重塑。本发明在稀疏奖励环境中能为智能体提供有效的中间反馈,提升探索效率,降低收敛时间,增强策略的稳定性和跨场景迁移能力,为机器人控制、多智能体博弈等稀疏奖励场景提供有效的解决方案。
技术关键词
强化学习方法 策略 强化学习框架 网络 生成动作 连续动作空间 动态 参数 概率密度函数 机器人控制 时序 偏差 广义 误差 索引 校准 鲁棒性 因子 机制 场景
系统为您推荐了相关专利信息
1
一种存储系统数据智能预取的方法
预取算法 存储系统数据 管理器 记忆单元 算法模型
2
基于虚拟机器人的工作角色模拟方法、系统及虚拟机器人
角色模拟方法 机器人 项目 习惯 逻辑
3
考虑多主体合作博弈的主动配电网优化调度方法及系统
收益分配模型 充放电功率 优化调度策略 分布式储能系统 配电网优化调度技术
4
基于大语言模型深度思考及内容检索的调研报告生成方法
报告生成方法 大语言模型 关键词 摘要 检索策略
5
一种矿井水文地质模型构建系统及方法
矿井水文地质 模型构建系统 模型构建方法 地质统计学插值 门控循环单元
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号