一种基于GRPO和多阶段验证的智能体进化方法

正文

推荐专利

申请号：CN202511125104

申请日期：2025-08-12

公开号：CN120975134A

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开一种基于GRPO和多阶段验证的智能体进化方法，属于人工智能技术领域。所述方法包括：初始化智能体的策略参数；将输入任务传递给智能体，以采样得到工具调用样本；对该工具调用样本进行多阶段验证以得到工具调用样本的总奖励；根据该总奖励更新所述智能体的策略参数，以完成智能体的工具使用能力的进化。本发明通过对大模型智能体结构以及采样样本的奖励函数进行有效构造，提高智能体在面对新工具时的适应能力和学习效率,不依赖繁重的人工标注，实现大模型智能体在工具使用能力上的自主进化。

技术关键词

样本有效性词嵌入向量进化方法多阶段策略格式进化系统人工智能技术采样模块标签网络结构基座超参数列表

一种基于GRPO和多阶段验证的智能体进化方法

站点导航

APP 下载