摘要
本发明提供了一种在线司乘匹配方法、介质及设备,属于在线二部图匹配技术领域,其中提出了一套基于分层强化学习的策略架构,对未来信息进行预测来指导当前的决策,先训练不同的底层策略,再训练高层模型选择底层策略以优化长期总收益。匹配时间片的收益和状态转移遵循特定规则,状态包括司机和订单特征,动作是通过停止策略决定是否改变底层策略,若改变则由高层策略选择合适的底层策略。本发明采用分层强化学习架构,解决了训练效率与决策性能的权衡难题,降低决策复杂度,提高训练效率,确保在复杂动态环境下能快速准确做出高质量决策,提升系统整体性能。
技术关键词
策略
司机
分层强化学习
订单
在线
神经网络架构
时间片
决策
传播算法
深度Q网络
队列
节点特征
提升系统
参数
处理器
可读存储介质
关系
存储器
系统为您推荐了相关专利信息
物联网家居
能源管理系统
采集人体生理数据
风险识别模型
智能设备接口
能效检测装置
多模态数据采集
基线
LSTM模型
能效检测技术