摘要
本发明提供的基于强化学习的红外目标探测双波段自动选择方法及装置,涉及红外探测系统设计技术领域。此方法包括:获取红外目标探测双波段的参考指标;根据参考指标确定奖励函数的表达式;建立强化学习模型,强化学习模型为利用智能体和环境交互并通过奖励函数的表达式获得奖励,实现对红外目标探测双波段进行选择的模型;利用近端策略梯度算法对强化学习模型进行训练,得到训练完成的强化学习模型;将初始选择的波段输入训练完成的强化学习模型中,以利用训练完成的强化学习模型对初始选择的波段进行选择,输出选择的双波段。这样,选择的双波段充分利用强化学习的自主学习能力,使波段选择的过程耗时较短,可以搜索波段选择的最优结果。
技术关键词
强化学习模型
双波段
表达式
红外探测系统
策略
梯度算法
网络
信噪比
探测设备
透过率
亮度
比率
指标
因子
参数
传播算法
模块
成像
模式