摘要
本发明提供一种多场景通用的决策方法和装置,应用于智能决策技术领域。该方法包括:获取当前时刻智能体的观测值和行动值;将所述观测值和所述行动值输入任务状态提示器模块,得到任务状态提示序列;将所述任务状态提示序列输入广义动力学模块,得到所述智能体的下一时刻的观测值;其中,所述广义动力学模块为基于变换器的循环状态空间模型。由于可以解决不同场景下动力学难以拟合的问题,因此可以提高多场景离线强化学习方法的学习回报率,从而实现决策方法的多场景通用需求。
技术关键词
决策方法
多场景
状态空间模型
解码模型
广义
提示器
模块
序列
非暂态计算机可读存储介质
智能决策技术
变换器
强化学习方法
处理器
计算机程序产品
存储器
电子设备
离线