一种基于强化学习的调度策略选择大模型训练方法

正文

推荐专利

申请号：CN202511029439

申请日期：2025-07-25

公开号：CN120525020A

公开日期：2025-08-22

类型：发明专利

摘要

本发明属于人工智能领域，公开了一种基于强化学习的调度策略选择大模型训练方法，包括：构建虚拟化集群环境；生成训练数据；进行大模型基座预训练；强化学习环境交互；进行优先级经验回放训练；进行近端策略优化；进行多专家策略蒸馏；进行策略安全验证；进行渐进式在线部署；进行反馈驱动持续优化。本发明通过分解资源拓扑、任务画像与动态负载特征至专用智能体，生成“高带宽需求任务”“临界过热节点”等结构化语义标签，使异构资源状态识别准确率提升40%，多维度特征融合效率提高35%。

技术关键词

模型训练方法虚拟化集群环境强化学习环境生成训练数据 Sigmoid函数节点服务等级协议动态专用智能负载特征备用系统语义标签策略更新偏差资源蒸馏时序特征异构

系统为您推荐了相关专利信息

人像增强模型训练方法及相关设备

模型训练方法面部样本标签图像处理器

基于多源异构数据融合的谐波减速器故障诊断方法

谐波减速器多源异构数据融合故障诊断方法故障诊断模型连续小波变换

视频超分方法、装置、设备、存储介质及程序产品

视频帧序列运动向量计算机执行指令样本

模型训练方法、工业互联网异常检测方法及相关装置

模型训练方法投影模块工业互联网对齐模块时序

一种肺癌CT到PET的医学图像生成的方法、系统和设备

金字塔池化模块代表峰值信噪比肺癌卷积模块

一种基于强化学习的调度策略选择大模型训练方法

站点导航

APP 下载