一种基于自监督预测的探索策略

AITNT
正文
推荐专利
一种基于自监督预测的探索策略
申请号:CN202410973988
申请日期:2024-07-19
公开号:CN118982060A
公开日期:2024-11-19
类型:发明专利
摘要
本发明公开了一种基于自监督预测的探索策略,构建一个IME模型,IME模型包括正演模型和反演模型,正演模型用于对智能体的状态‑动作对数据进行压缩,反演模型用于从压缩的信息中恢复对应的状态‑动作对数据;正演模型包含三层全连接神经网络,激活函数为ReLU;反演模型包含三层全连接神经网络,激活函数为ReLU。本发明在压缩和还原信息的过程中既能保证准确性又能保持潜在空间的良好结构,能够使用最少得信息量表达原始数据中的数据量,有利于提取到最佳的内在探索回报,推动智能体去探索更多的环境数据,增加智能体的性能。
技术关键词
反演模型 策略 数据 样本 度量 参数 编码 定义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号