摘要
本发明提供了一种基于强化学习的多风格高可控策略学习方法及系统,获取智能体在环境中的元行为,对每个元行为进行奖励塑造,每个元行为包括一个对应的风格参数,风格参数控制完成这些元行为后的奖励尺度;在智能体与环境交互的过程中,根据元行为的数目,随机生成一组风格参数,风格参数与状态组合送入智能体的模型进行推理得到动作,动作反馈至环境后,产生当前时刻智能体获得的奖励和下一时刻的状态;对智能体与环境交互的过程中的风格参数、状态、动作以及奖励进行强化学习,得到多风格高可控策略模型。本发明能够令单一强化学习模型同时具有多种风格的策略,通过调节多风格参数,可以对模型的策略进行控制,增加了策略的可控性。
技术关键词
风格
策略学习方法
参数
生成动作
学习系统
估计算法
强化学习模型
网络
编码器
定义
基础
广义
模块