一种策略正则化提升探索效率的机器人控制方法

正文

推荐专利

申请号：CN202411071231

申请日期：2024-08-06

公开号：CN118596159B

公开日期：2024-11-08

类型：发明专利

摘要

本发明公开了一种策略正则化提升探索效率的机器人控制方法，涉及机器学习技术领域。包括：构建策略网络、多个Q值网络和缓冲池；机器人使用策略网络产生动作与环境进行交互，并记录所述交互轨迹存储到缓冲池；从缓冲池中采样状态数据构建策略正则化值；根据所述缓冲池数据更新所述Q值网络和策略网络；重复策略与环境的交互并进行Q值网络和策略网络的更新至策略性能满足预设要求；根据最终的策略网络控制机器人进行任务。本发明通过构建策略正则化项去鼓励在更多的区域进行探索，进而解决强化学习中Q值被低估导致的样本探索利用效率低。

技术关键词

策略机器人控制方法缓冲池控制机器人运动机器人对环境网络控制数据更新机器学习技术参数轨迹随机噪声鲁棒性定义因子样本

一种策略正则化提升探索效率的机器人控制方法

站点导航

APP 下载