摘要
本发明公开了基于袋装奖励框架的换电站调度方法、系统及存储介质,包括对电池状态、换电站点状态和环境状态数据进行采集,并进行预处理;时空轨迹袋构建模块构建多维度状态表征和多维度动作表征,并划分轨迹袋;延迟奖励聚合器模块基于轨迹袋并通过延迟反馈计算器生成袋级奖励的多目标奖励函数;奖励袋变换器RBT模型将轨迹袋的状态‑动作对映射至隐空间,结合时空注意力机制并采用奖励分解算法进行奖励分配;基于RLBR框架和奖励袋变换器RBT模型,并结合时空轨迹袋构建模块和延迟奖励聚合器模块,构建基于强化学习袋装奖励框架的换电站动态调度模型;对模型进行多任务的优化以及训练;根据训练完成的模型输出的动态决策行为进行换电站点的动态调度。
技术关键词
动态调度模型
动态时间窗口
换电站
充电策略
轨迹
时空注意力机制
框架
电池
变换器
等待时间最小化
物流路径规划
分解算法
动态调度系统
多任务
计算器
加权损失函数
决策
指数衰减函数
模块
系统为您推荐了相关专利信息
车辆轨迹识别方法
交通视频数据
轨迹预测方法
车灯
亮度
数据融合方法
系统误差
船舶运动模型
轨迹
匈牙利算法
条纹变像管
空间电荷效应
光电阴极
仿真方法
荧光屏
人车交互
车辆
轨迹生成方法
构建深度学习网络
融合特征