摘要
本说明书实施例涉及控制与决策技术领域,提供了一种针对期望型约束的决策控制策略生成方法及装置,包括:根据目标智能体的期望型约束构建包括行动价值函数和行动约束价值函数的约束马尔科夫模型;根据行动价值函数和行动约束价值函数,建模得到每一状态动作对的行动价值正态分布模型和行动约束价值正态分布模型,根据行动价值正态分布模型和行动约束价值正态分布模型确定每一状态动作对的均值和方差,从而计算得到智能体在每一状态动作对的采样概率;根据采样概率对智能体动作空间中的动作进行迭代采样,得到目标智能体的最优决策控制策略。通过本说明书实施例,能够提高渐进获得最大最优策略的概率,整体提升采样效率。
技术关键词
正态分布模型
马尔科夫模型
控制策略生成方法
智能车系统
决策
处理器
可读存储介质
神经网络模型
整体提升
计算机程序产品
生成装置
计算机设备
输出模块
存储器
因子
系统为您推荐了相关专利信息
任务调度优化方法
服务器
处理器
策略更新
卸载策略
配电终端
证据理论算法
实体
缺陷现象
故障诊断方法
地质聚合物
智能装备
弹性缓冲垫片
支撑框架
膜体