摘要
本发明公开了一种多模态强化学习驱动的PM2.5化学组分垂直廓线反演系统及方法,其中:系统包括深度强化学习模型;深度强化学习模型包括状态空间、Action动作空间、奖励函数、Actor网络和Critic网络;深度强化学习模型用于根据Action动作空间输出的PM2.5各化学组分浓度的垂直廓线预测值与实际监测值间的差异,结合奖励函数,计算当前时刻的奖励值;根据策略评估的评估结果,利用梯度下降方法持续进行策略迭代,直至待深度强化学习模型收敛后,得到最优的目标深度强化学习模型。采用Actor‑Critic网络动态优化策略,结合边缘计算实现分钟级模型更新,解决了传统模型高空盲区、实时性不足等问题。
技术关键词
深度强化学习模型
垂直廓线
反演系统
多模态
激光雷达光学
网络
注意力机制
卫星遥感数据
地面监测站
矩阵
策略
动态时间规整算法
地基激光雷达
小波阈值去噪
输出模块
梯度方法
参数
模型更新
系统为您推荐了相关专利信息
深度学习模型
意图
领航系统
驾驶员面部表情
时间序列分析方法
异常识别方法
催化剂设备
多模态特征融合
数据
机器自学习
线路施工现场
风险评估模型
智能控制方法
施工设备
风险评估值