摘要
本申请涉及数据处理技术预测领域,公开了基于多目标强化学习的拆解线平衡优化方法、系统及介质,方法:S1、获取输入数据并预处理;S2、构建状态空间、动作空间和目标函数,部署训练环境;S3、训练多目标强化学习模型:通过MO‑DQN算法引入偏好向量动态调整目标权重,根据S1获取的拆解数据,计算目标函数,优化S2中的多个目标,结合ε‑贪婪策略和NSGA‑II算法选择动作策略;S4、将训练好的模型生成的最优策略应用于拆解线中的任务分配。通过引入偏好向量,根据任务的具体需求动态调整目标权重,不仅能有效处理目标之间的冲突,还能根据不同情境的变化自动调整优化策略,提升拆解任务中的任务调度与资源分配效率。
技术关键词
强化学习模型
DQN算法
动作策略
平衡优化方法
贪婪策略
深度Q网络
机器人工作站
工位
任务调度
资源分配
更新网络参数
能耗
动态
数据处理技术
理论