摘要
本发明公开了一种强化学习计算模拟方法、装置、电子设备及存储介质,涉及人工智能计算技术领域,包括将已确定的当前模型参数配置、当前硬件配置和当前工作负载输入至目标模拟系统得到多个并行分组组合,根据当前硬件配置确定目标模拟系统,基于预设的蒙特卡洛方法,从多个并行分组组合中确定有效并行分组组合,并输入至预设的神经网络模型的模拟器,通过模拟器根据有效并行分组组合进行延迟时间计算,且将最短延迟时间对应的组合作为目标并行分组组合,解决了模拟场景不匹配、精度不足、缺乏对异构集群有效支持的技术问题,通过高精度的性能建模和自动化探索,提供可靠的性能预测和最优并行策略建议,从而降低大规模GRPO训练的资源消耗。
技术关键词
神经网络模型
模拟系统
集群
蒙特卡洛方法
模拟器
阶段
人工智能计算技术
异构
并行策略
参数
电子设备
可读存储介质
图形处理器
计算机程序产品
模拟装置
数值
序列
模块
存储器
系统为您推荐了相关专利信息
巡检轨迹
充电调度策略
多无人机
无人机巡检
储能
肢体动作识别
头部姿态识别
模拟系统
识别模块
坐标
卷积神经网络模型
数据
决策树模型
空间分布特征
节点
系统协调器
状态管理方法
机械臂控制器
手术模拟器系统
手术场景