摘要
本发明公开了一种融合大模型先验知识的强化学习作业调度优化方法及系统,解决异构计算环境作业调度难题。本发明结合大模型知识推理与强化学习自适应能力,构建高效调度框架。训练初期,大模型据环境状态与作业需求生成初始调度动作,交互经验存入经验池;PPO算法利用经验池数据优化策略,更新网络参数,同时也会使用熵正则化维持一定的随机探索。大模型辅助训练后,PPO转为自主训练,与环境交互持续优化,最终生成适应性调度策略。本发明融合二者优势,显著提升训练效率和调度性能,平衡SLA与集群能耗,为复杂异构环境作业调度提供创新方案。
技术关键词
作业调度优化方法
模型训练模块
环境状态信息
策略更新
最大化资源利用率
算法
异构计算环境
集群
作业需求
更新网络参数
决策
定义
能耗
阶段
计算方法
系统为您推荐了相关专利信息
模型训练方法
生物标志物
组织芯片
算法模型
基因
智能管理平台
电解铝
设备状态数据
深度学习模型训练
数据处理模块
图像翻译方法
循环生成对抗网络
感知损失函数
神经网络架构
计算机可读指令
诊断模块
模型训练模块
算法模块
商店
医疗诊断系统
网络参数配置
模型训练模块
生成训练数据
深度神经网络
SOI结构