一种策略正则化提升探索效率的机器人控制方法

AITNT
正文
推荐专利
一种策略正则化提升探索效率的机器人控制方法
申请号:CN202411071231
申请日期:2024-08-06
公开号:CN118596159B
公开日期:2024-11-08
类型:发明专利
摘要
本发明公开了一种策略正则化提升探索效率的机器人控制方法,涉及机器学习技术领域。包括:构建策略网络、多个Q值网络和缓冲池;机器人使用策略网络产生动作与环境进行交互,并记录所述交互轨迹存储到缓冲池;从缓冲池中采样状态数据构建策略正则化值;根据所述缓冲池数据更新所述Q值网络和策略网络;重复策略与环境的交互并进行Q值网络和策略网络的更新至策略性能满足预设要求;根据最终的策略网络控制机器人进行任务。本发明通过构建策略正则化项去鼓励在更多的区域进行探索,进而解决强化学习中Q值被低估导致的样本探索利用效率低。
技术关键词
策略 机器人控制方法 缓冲池 控制机器人运动 机器人对环境 网络控制 数据更新 机器学习技术 参数 轨迹 随机噪声 鲁棒性 定义 因子 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号