基于强化学习的多风格高可控策略学习方法及系统

正文

推荐专利

申请号：CN202411885078

申请日期：2024-12-20

公开号：CN119337966B

公开日期：2025-11-04

类型：发明专利

摘要

本发明提供了一种基于强化学习的多风格高可控策略学习方法及系统，获取智能体在环境中的元行为，对每个元行为进行奖励塑造，每个元行为包括一个对应的风格参数，风格参数控制完成这些元行为后的奖励尺度；在智能体与环境交互的过程中，根据元行为的数目，随机生成一组风格参数，风格参数与状态组合送入智能体的模型进行推理得到动作，动作反馈至环境后，产生当前时刻智能体获得的奖励和下一时刻的状态；对智能体与环境交互的过程中的风格参数、状态、动作以及奖励进行强化学习，得到多风格高可控策略模型。本发明能够令单一强化学习模型同时具有多种风格的策略，通过调节多风格参数，可以对模型的策略进行控制，增加了策略的可控性。

技术关键词

风格策略学习方法参数生成动作学习系统估计算法强化学习模型网络编码器定义基础广义模块

基于强化学习的多风格高可控策略学习方法及系统

站点导航

APP 下载