摘要
本发明提供一种列车自动运行控制方法、装置、设备、存储介质及产品,该方法包括:将当前列车运行状态输入策略网络,得到控制动作概率分布;将控制动作概率分布输入MPC控制器,预测未来列车运行状态和输出数据;将未来列车运行状态和输出数据输入值函数网络,得到在当前状态下采取各个可行动作的累计回报估计值;基于累计回报估计值和控制目标对控制动作概率分布进行优化,得到优化后的控制动作概率分布,以调整列车的控制动作,实现列车运行控制。本发明通过将策略网络和值函数网络整合到MPC控制器中,可以将学习到的控制策略应用到列车的实时运行中,实现最优的列车运行效果,提高列车运行舒适性、控制精度和鲁棒性。
技术关键词
列车运行状态
列车运行模拟
强化学习模型
列车运行控制
列车动力学
网络
非暂态计算机可读存储介质
控制器
轨道相互作用
车载传感器
处理器
数据
计算机程序产品
加速度
轨迹
控制策略
输出模块
系统为您推荐了相关专利信息
电网传感器
网络拓扑结构
故障恢复方法
强化学习模型
传感器特征
无人航空器
精细化管理方法
风险评估模型
深度强化学习方法
飞行状态数据
业务系统
深度强化学习模型
构建知识图谱
集群
数据
状态监测方法
零样本学习方法
列车运行状态
磁浮列车
电磁悬浮系统
训练样本数据
辅助决策方法
电压越限
动作策略
电网模型文件