摘要
本发明属于人工智能领域,公开了一种基于强化学习的调度策略选择大模型训练方法,包括:构建虚拟化集群环境;生成训练数据;进行大模型基座预训练;强化学习环境交互;进行优先级经验回放训练;进行近端策略优化;进行多专家策略蒸馏;进行策略安全验证;进行渐进式在线部署;进行反馈驱动持续优化。本发明通过分解资源拓扑、任务画像与动态负载特征至专用智能体,生成“高带宽需求任务”“临界过热节点”等结构化语义标签,使异构资源状态识别准确率提升40%,多维度特征融合效率提高35%。
技术关键词
模型训练方法
虚拟化集群环境
强化学习环境
生成训练数据
Sigmoid函数
节点
服务等级协议
动态
专用智能
负载特征
备用系统
语义标签
策略更新
偏差
资源
蒸馏
时序特征
异构
系统为您推荐了相关专利信息
谐波减速器
多源异构数据融合
故障诊断方法
故障诊断模型
连续小波变换
模型训练方法
投影模块
工业互联网
对齐模块
时序