摘要
本发明涉及对比学习的四足机器人运动控制方法、装置及存储介质,在自引导潜在表示学习网络中,对历史观测数据,使用在线网络和目标网络分别输出预测表示和目标表示,使用基于负余弦相似度的第一损失函数优化预测表示和目标表示的表示一致性,并提取潜在特征和速度预测值,近端策略优化网络包括以外部信息为输入的评论家网络,在近端策略优化网络中,将去除线速度后的实时观测数据、潜在特征和速度预测值,通过三层多层感知器输出关节控制指令。本发明无需依赖视觉等外部传感器或完整环境特权信息,仅需本体感受输入(IMU、编码器数据)即可实现稳定控制,硬件成本更低、平台适配性更强,可直接部署于无外部传感器的机器人平台。
技术关键词
损失函数优化
网络
策略
多层感知器
数据
机器人平台
四足机器人
编码器
计算机装置
速度估计
在线
关节
处理器
可读存储介质
传感器
存储器
程序
系统为您推荐了相关专利信息
交通信号控制方法
环境感知数据
强化学习模型
控制策略
深度强化学习方法
模块化磁悬浮
天平系统
组合模块
传感器组合
主控模块
工程监理
数据处理方法
拍卖算法
工程数据处理技术
终端