一种基于深度强化学习的魔方复原方法、系统和电子设备

AITNT
正文
推荐专利
一种基于深度强化学习的魔方复原方法、系统和电子设备
申请号:CN202510987109
申请日期:2025-07-17
公开号:CN120806039A
公开日期:2025-10-17
类型:发明专利
摘要
本发明实施例提供一种基于深度强化学习的魔方复原方法和系统,通过6×N×N张量矩阵编码魔方状态,完整保留色块颜色、坐标信息,为后续模型训练提供高精度输入,适配任意阶魔方(如二阶、三阶等),增强方案通用性;利用Q‑learning优化复原策略网络,通过最小化预测Q值与真实Q值的均方误差更新网络参数,精准学习魔方状态‑动作对价值;再基于该复原策略网络,采用策略梯度优化,借优势函数、梯度上升算法及熵正则化,迭代更新策略网络参数,平衡探索与利用,直至复原路径期望累计奖励稳定,技术效果显著,可提升价值判断准确性、策略优化效率与模型泛化能力,稳定生成高质量复原路径,助力高效、智能的魔方复原。
技术关键词
魔方复原方法 深度强化学习 策略 色块 神经网络训练 指令 生成训练样本 更新网络参数 序列 非暂态计算机可读存储介质 矩阵 坐标 误差 标识符 轨迹
系统为您推荐了相关专利信息
1
功率分配管理方法、装置、设备、存储介质及芯片
功率分配策略 座舱 功率分配管理 电池 参数
2
一种基于多模态数据的煤泥浮选加药状态评价方法及系统
煤泥浮选加药 状态评价方法 浮选泡沫图像 多模态 状态评价系统
3
燃煤锅炉的燃烧优化方法、系统、电子设备及存储介质
锅炉燃烧效率 历史运行数据 深度强化学习方法 燃烧优化方法 状态转移模型
4
一种基于异构GPU的大模型自动多维并行训练系统
流水线 训练系统 代表 数据 异构
5
基于主动路径分散的卫星网络路由方法、装置及可读介质
链路 速率 时间序列预测模型 传输路径 有向图结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号