摘要
本发明实施例提供一种基于深度强化学习的魔方复原方法和系统,通过6×N×N张量矩阵编码魔方状态,完整保留色块颜色、坐标信息,为后续模型训练提供高精度输入,适配任意阶魔方(如二阶、三阶等),增强方案通用性;利用Q‑learning优化复原策略网络,通过最小化预测Q值与真实Q值的均方误差更新网络参数,精准学习魔方状态‑动作对价值;再基于该复原策略网络,采用策略梯度优化,借优势函数、梯度上升算法及熵正则化,迭代更新策略网络参数,平衡探索与利用,直至复原路径期望累计奖励稳定,技术效果显著,可提升价值判断准确性、策略优化效率与模型泛化能力,稳定生成高质量复原路径,助力高效、智能的魔方复原。
技术关键词
魔方复原方法
深度强化学习
策略
色块
神经网络训练
指令
生成训练样本
更新网络参数
序列
非暂态计算机可读存储介质
矩阵
坐标
误差
标识符
轨迹
系统为您推荐了相关专利信息
煤泥浮选加药
状态评价方法
浮选泡沫图像
多模态
状态评价系统
锅炉燃烧效率
历史运行数据
深度强化学习方法
燃烧优化方法
状态转移模型
链路
速率
时间序列预测模型
传输路径
有向图结构