摘要
本申请涉及机器人智能控制技术领域的一种具有优先经验回放的自组织强化学习方法,该方法将深度神经网络(DNN)和自组织学习地图(SOM)相结合,模拟大脑中新皮层与海马体的学习机制进行强化学习,其中深度神经网络(DNN)用于模拟新皮质缓慢学习分布式表征的特性,自组织学习地图(SOM)用于模拟海马体快速学习和模式分离的特性;并采用考虑时间差分(TD)误差、贝尔曼(BE)误差以及经验熟悉度因子指标的优先采样策略来动态调控探索与利用(EET)的平衡。本发明有效地缓解了深度强化学习中数据利用率低以及学习效率差的问题,同时提高了关键经验的采样效率和策略评估的准确性,而且在机器人行为决策中非常有效。
技术关键词
深度神经网络
强化学习方法
组织
地图
分布式表征
机器人智能控制技术
误差
深度强化学习
贪婪策略
并行工作
因子
动态
超参数
决策
模式
机制
样本
指标
系统为您推荐了相关专利信息
动态特征提取
深度神经网络模型
融合特征
定位方法
三维点云信息
智能抽屉
数据库管理系统
控制主板
麦克风模块
图像
电路优化方法
仿真数据
模型预测控制框架
强化学习方法
查找表
多传感器融合
数据处理系统
长短期记忆单元
模糊逻辑推理
决策