摘要
本发明公开了一种基于多智能体强化学习的供应链自动化合约代理方法,步骤为:S1:根据斯塔克尔伯格模型和鲁宾斯坦模型具体建模供应链交易的两种典型场景;S2:通过斯塔克尔伯格模型和鲁宾斯坦模型获取专家经验,对智能体行为员网络进行基于专家经验的预训练;S3:根据博弈特性引入基于对手策略的价值预测、应用时序模型进行历史交易序列的特征提取、优先级经验回放机制,逐步优化智能体的策略。本发明显著提升了算法性能,处理复杂和动态的谈判任务,增强了智能体的前瞻性决策能力,加速了在训练初期的学习过程,在学习过程更专注于重要的经验,提升了整体的学习效率和策略成熟度。
技术关键词
多智能体强化学习
代表
利润
决策
网络优化
位置依赖信号
策略网络模型
样本
协议
游戏
因子
更新模型参数
LSTM模型
机制
方程
序列特征
时序
系统为您推荐了相关专利信息
模型构建方法
训练样本数据
逻辑回归模型
三元组
学习算法
历史运行数据
需求预测模型
决策树模型
特征选择
资源分配策略
路径识别方法
车牌识别数据
单车
局部敏感哈希算法
行程
视性错觉
智能评估方法
脑网络特征
电信号
训练样本集
能耗管理系统
样本
短期负荷预测
计算方法
数学模型