一种基于深度强化学习的魔方复原方法、系统和电子设备

正文

推荐专利

申请号：CN202510987109

申请日期：2025-07-17

公开号：CN120806039A

公开日期：2025-10-17

类型：发明专利

摘要

本发明实施例提供一种基于深度强化学习的魔方复原方法和系统，通过6×N×N张量矩阵编码魔方状态，完整保留色块颜色、坐标信息，为后续模型训练提供高精度输入，适配任意阶魔方(如二阶、三阶等)，增强方案通用性；利用Q‑learning优化复原策略网络，通过最小化预测Q值与真实Q值的均方误差更新网络参数，精准学习魔方状态‑动作对价值；再基于该复原策略网络，采用策略梯度优化，借优势函数、梯度上升算法及熵正则化，迭代更新策略网络参数，平衡探索与利用，直至复原路径期望累计奖励稳定，技术效果显著，可提升价值判断准确性、策略优化效率与模型泛化能力，稳定生成高质量复原路径，助力高效、智能的魔方复原。

技术关键词

魔方复原方法深度强化学习策略色块神经网络训练指令生成训练样本更新网络参数序列非暂态计算机可读存储介质矩阵坐标误差标识符轨迹

系统为您推荐了相关专利信息

功率分配管理方法、装置、设备、存储介质及芯片

功率分配策略座舱功率分配管理电池参数

一种基于多模态数据的煤泥浮选加药状态评价方法及系统

煤泥浮选加药状态评价方法浮选泡沫图像多模态状态评价系统

燃煤锅炉的燃烧优化方法、系统、电子设备及存储介质

锅炉燃烧效率历史运行数据深度强化学习方法燃烧优化方法状态转移模型

一种基于异构GPU的大模型自动多维并行训练系统

流水线训练系统代表数据异构

基于主动路径分散的卫星网络路由方法、装置及可读介质

链路速率时间序列预测模型传输路径有向图结构

一种基于深度强化学习的魔方复原方法、系统和电子设备

站点导航

APP 下载