摘要
本发明公开了一种针对智能体目标导向强化学习的对抗鲁棒性提升方法,其步骤包括:1)从目标条件强化学习智能体与环境交互中采集一组训练数据;其中,组中的每一训练数据表示为<s,g,r,a,s′>,s表示状态,g表示目标,r表示奖励,a表示采取的动作,s′表示下一状态;构造多个负样本用于增加表征扰动的多样性;2)最大化采集的训练数据中原始输入元组<s,g>与对应的负样本之间的表征距离,得到扰动后的对抗样本;3)使用扰动后的对抗样本增强目标条件强化学习智能体的价值函数和策略函数,优化编码器网络、行为者网络和评价者网络;4)基于优化后的编码器网络、行为者网络和评价者网络构建鲁棒性提升的目标导向强化学习智能体。
技术关键词
样本
网络
编码器
鲁棒性
策略
存储计算机程序
智能机器人
智能系统
数据
对抗性
处理器
元素
可读存储介质
存储器
定义
服务器
因子
代表
系统为您推荐了相关专利信息
语音识别模型
音频
字幕
方言语音识别方法
语音识别模块
分类图像数据
图像分类方法
卷积模块
神经网络处理器
样本
动态风险评估方法
DDS系统
服务器节点
网络风险评估技术
传感器节点