摘要
一种基于深度强化学习的海空多目标多传感器调度方法,在离线训练阶段,通过特征提取构建环境特征状态sk,根据深度Q网络(DQN)训练并获得关于该状态的所有Q值后,使用ε‑贪心策略选择分配动作ak;环境根据分配动作ak给出有效性评估奖励rk和下一个观察值,即状态sk+1;在测试阶段,采用训练后的深度Q网络进行同样的环境特征状态构建过程,最终输出为最优的传感器‑目标调度动作,使Q‑factor最大化。本发明通过经验驱动的自主学习框架与环境交互训练生成调度策略,能够在保证平台安全的前提下提高传感器探测效能。
技术关键词
深度强化学习
多传感器
深度Q网络
平台
运动状态信息
探测效能
标签
贪心策略
速度
指标
深度神经网络
层次分析法
采取行动
离线
因子
参数
样本
系统为您推荐了相关专利信息
统一身份认证平台
动态令牌
云平台
口令
访问认证方法
联锁逻辑
数据管理平台
管控方法
管控系统
数字孪生技术
文本
数据处理平台
数据处理模型
银行业务系统
关系型数据库
专网系统
虚拟网络设备
运维管理平台
数据中心内部网络
动态资源调度算法