摘要
本发明公开了一种基于强化学习的传染病干预措施优化方法,包括:对改进型Covasim环境进行参数调整;对智能体进行训练:(1)智能体从改进型Covasim环境获取状态信息st,在感染人数超过预设人数阈值时,根据状态信息输出干预措施强度值at,根据at作用于环境并得到对应的奖励信息rt,获取下一状态信息st+1,将数据组(st,at,rt,st+1)存至经验回放区;(2)当经验回放区中存储的数据达到预设数据阈值后随机采样Mini‑batch对智能体的网络参数进行更新;(3)重复步骤(1)‑(2)直至达到预设最大训练时长,得到训练后的智能体;训练后的智能体根据当前传染病疫情状态输出对应的干预措施。
技术关键词
措施
网络
数据
强度
参数
仿真模型
模块
策略更新
计算方法
对象
动态
广义
决策
规模
场景
定义
周期
基础
系统为您推荐了相关专利信息
柔性直流输电控制
阀控装置
宽频
换流阀子模块
滤波器对电网
SOC芯片
图像处理系统
总线电路
视频数据传输
脉冲宽度调制接口
井下采矿设备
联动运行控制
井下采矿作业
控制平台
生成输送设备