摘要
本申请公开基于图像时频域增强和动态掩码生成网络的强化学习方法,包括:获取智能体在不同交互环境中的观测状态图像,并送入图像时域‑频域增强模块中,进行图像时频域增强;构造基于空间注意力的图像动态掩码生成网络,对增强后的图像进行动态掩码加权处理,去除图像中与智能体预设任务无关的干扰信息;在AC框架强化学习网络中,将经过动态掩码加权处理后的图像送入强化学习网络中,预测智能体的执行动作;以在交互环境中获取最高分数为目标,对智能体的执行动作进行实时调整,直到完成预设任务。本发明所提出方法能精确捕捉到与任务最相关图像像素,提升样本利用效率,增强模型的泛化能力,提升强化学习算法的训练效果。
技术关键词
强化学习方法
强化学习网络
强化学习框架
动态
注意力
状态图像数据
强化学习算法
网络结构
机械手指
生成动作
融合策略
图像像素
三通道
模块
序列
尺寸
元素
系统为您推荐了相关专利信息
气刀
计算机视觉技术
喷涂控制方法
智能化喷涂控制系统
基材
钢混结构
分布式架构
变形预测系统
变形预测方法
噪声源
卷积神经网络模型
注意力机制
识别方法
数据分类
参数