摘要
本发明公开了一种基于深度强化学习的多模型融合决策方法及系统,包括智能体,智能体包括Actor网络和Critic网络,分别用于生成模型权重分配策略和评估策略价值;获取当前系统状态,Actor网络根据这些信息输出模型权重分配;根据权重分配对多个模型输出进行加权融合,得到最终输出策略;将融合策略输入回测系统评估,获取奖励收益,并据此更新资源总量;将当前系统状态、融合权重及奖励收益存储至缓冲区作为训练数据;从缓冲区采样训练数据,更新Actor和Critic网络参数;重复上述过程直至满足预设条件。本发明能够自适应地将多个模型的输出策略进行融合,相比于传统人工经验分配融合权重的方法,所提出的智能的多模型融合策略能实现更加精准的决策。
技术关键词
融合决策方法
深度强化学习
权重分配策略
网络
动态生成模型
融合策略
总量
参数更新模块
数据存储模块
资源更新
决策系统
多模型
数据更新
时间段