摘要
本发明公开了一种基于耦合流模型驱动的单足跳跃机器人运动控制方法,通过智能体策略模型输出决策动作,与单足跳跃机器人在线交互采集真实环境样本;由概率神经网络构建环境动态性模型,以监督学习方式训练模型模拟机器人运动状态;利用多层耦合结构搭建耦合流模型,将其输出的分布差异转化为奖励信号,通过重构马尔可夫决策过程并结合强化学习算法,实现环境模型的动态优化;最终,智能体策略与校准后的环境模型交互生成高精度模拟样本,联合真实样本完成策略迭代更新。本发明仅需少量环境交互即可达到与无模型强化学习相当的累积奖赏,显著提升单足跳跃机器人策略的学习效率与模型泛化能力。
技术关键词
样本
策略
机器人
强化学习算法
轨迹
参数
梯度下降算法
耦合结构
决策
重构
度量
校准
在线
动态
密度
运动
信号
系统为您推荐了相关专利信息
应急指挥调度系统
强化学习算法
故障恢复时间
指挥调度平台
天气状况数据
锂离子电池
卷积神经网络算法
高温老化试验
迁移学习策略
模型参数辨识
智能光伏板
摄像头底座
无水清洁装置
摄像装置
竖直滑动机构
亲和力预测模型
原子团
药物
序列
蛋白质特征提取