摘要
本发明公开了一种基于自监督预测的探索策略,构建一个IME模型,IME模型包括正演模型和反演模型,正演模型用于对智能体的状态‑动作对数据进行压缩,反演模型用于从压缩的信息中恢复对应的状态‑动作对数据;正演模型包含三层全连接神经网络,激活函数为ReLU;反演模型包含三层全连接神经网络,激活函数为ReLU。本发明在压缩和还原信息的过程中既能保证准确性又能保持潜在空间的良好结构,能够使用最少得信息量表达原始数据中的数据量,有利于提取到最佳的内在探索回报,推动智能体去探索更多的环境数据,增加智能体的性能。
技术关键词
反演模型
策略
数据
样本
度量
参数
编码
定义