摘要
本申请提供了一种机器人控制策略模型的确定方法、设备,机器人控制策略的确定方法、设备、计算机可读存储介质及程序产品,该申请的一具体实施方式包括:在仿真环境中训练得到用于确定仿真机器人的控制策略的强化学习策略模型;对于强化学习策略模型对仿真机器人的控制策略执行过程所涉及的多个环节,采用多个环节各自对应的迁移算法将强化学习策略模型适配于真实环境,得到机器人控制策略模型。本申请基于仿真环境可以高效地生成大量的训练样本,提高了强化学习策略模型的训练效率、准确度和泛化性;基于多个环节各自对应的策略迁移算法,提高了机器人控制策略模型与真实环境之间的适配度,保障了机器人控制策略模型在真实环境中的准确度。
技术关键词
仿真机器人
控制策略模型
强化学习策略
仿真环境
学生
环境感知数据
运动控制算法
计算机程序指令
仿真模型
序列
教师
处理器
机器人控制
计算机程序产品
编码器
系统为您推荐了相关专利信息
考评方法
分数阶
布谷鸟搜索算法
语义特征
布谷鸟算法
数据管理方法
密钥
审计日志
学生
教育信息化管理
集成优化方法
健康状态数据
机器学习模型
学生健康
粒子群优化算法
策略优化方法
电网运行数据
递推最小二乘法
屏障
电网智能调度
训练算法
强化学习环境
大语言模型
仿真环境
三维模型