一种基于强化学习的调度策略选择大模型训练方法

AITNT
正文
推荐专利
一种基于强化学习的调度策略选择大模型训练方法
申请号:CN202511029439
申请日期:2025-07-25
公开号:CN120525020A
公开日期:2025-08-22
类型:发明专利
摘要
本发明属于人工智能领域,公开了一种基于强化学习的调度策略选择大模型训练方法,包括:构建虚拟化集群环境;生成训练数据;进行大模型基座预训练;强化学习环境交互;进行优先级经验回放训练;进行近端策略优化;进行多专家策略蒸馏;进行策略安全验证;进行渐进式在线部署;进行反馈驱动持续优化。本发明通过分解资源拓扑、任务画像与动态负载特征至专用智能体,生成“高带宽需求任务”“临界过热节点”等结构化语义标签,使异构资源状态识别准确率提升40%,多维度特征融合效率提高35%。
技术关键词
模型训练方法 虚拟化集群环境 强化学习环境 生成训练数据 Sigmoid函数 节点 服务等级协议 动态 专用智能 负载特征 备用系统 语义标签 策略更新 偏差 资源 蒸馏 时序特征 异构
系统为您推荐了相关专利信息
1
人像增强模型训练方法及相关设备
模型训练方法 面部 样本 标签 图像处理器
2
基于多源异构数据融合的谐波减速器故障诊断方法
谐波减速器 多源异构数据融合 故障诊断方法 故障诊断模型 连续小波变换
3
视频超分方法、装置、设备、存储介质及程序产品
视频帧 序列 运动向量 计算机执行指令 样本
4
模型训练方法、工业互联网异常检测方法及相关装置
模型训练方法 投影模块 工业互联网 对齐模块 时序
5
一种肺癌CT到PET的医学图像生成的方法、系统和设备
金字塔池化模块 代表 峰值信噪比 肺癌 卷积模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号