摘要
本申请公开了一种基于对比学习的控制策略确定方法、装置、设备及介质。通过训练轨迹编码器将机械臂执行复杂任务的轨迹片段映射为嵌入向量,并基于预先构建的机械臂任务特性的对比损失函数来优化轨迹嵌入空间,利用轨迹片段对在嵌入空间中的距离来量化其区分度,优先选择区分度高的机械臂轨迹对,从而解决了离线PbRL中歧义查询导致的标注低效问题,并且能够减少人力成本、提升标注准确率;进而,学习到更准确的奖励模型,最终训练出性能更优的策略,通过对比学习与机械臂任务特性的深度融合提升机械臂控制性能。
技术关键词
轨迹
控制策略
计算机程序指令
编码器
机械臂
解码器
强化学习算法
数据
四边形
计算机程序产品
标签
电子设备
模块
可读存储介质
提升机械
离线
处理器
重构
运动
系统为您推荐了相关专利信息
充电控制策略
监测控制系统
电流
电池状态监测模块
电池状态数据
聚合物电解质
一体化智能系统
新颖结构
碱性
性能预测模型
搬运机器人
现场状况
智能控制系统
智能控制方法
时间段