多场景通用的决策方法和装置

正文

推荐专利

多场景通用的决策方法和装置

申请号：CN202411043452

申请日期：2024-07-31

公开号：CN119129669A

公开日期：2024-12-13

类型：发明专利

摘要

本发明提供一种多场景通用的决策方法和装置，应用于智能决策技术领域。该方法包括：获取当前时刻智能体的观测值和行动值；将所述观测值和所述行动值输入任务状态提示器模块，得到任务状态提示序列；将所述任务状态提示序列输入广义动力学模块，得到所述智能体的下一时刻的观测值；其中，所述广义动力学模块为基于变换器的循环状态空间模型。由于可以解决不同场景下动力学难以拟合的问题，因此可以提高多场景离线强化学习方法的学习回报率，从而实现决策方法的多场景通用需求。

技术关键词

决策方法多场景状态空间模型解码模型广义提示器模块序列非暂态计算机可读存储介质智能决策技术变换器强化学习方法处理器计算机程序产品存储器电子设备离线

多场景通用的决策方法和装置

站点导航

APP 下载