摘要
本发明公开一种基于GRPO和多阶段验证的智能体进化方法,属于人工智能技术领域。所述方法包括:初始化智能体的策略参数;将输入任务传递给智能体,以采样得到工具调用样本;对该工具调用样本进行多阶段验证以得到工具调用样本的总奖励;根据该总奖励更新所述智能体的策略参数,以完成智能体的工具使用能力的进化。本发明通过对大模型智能体结构以及采样样本的奖励函数进行有效构造,提高智能体在面对新工具时的适应能力和学习效率,不依赖繁重的人工标注,实现大模型智能体在工具使用能力上的自主进化。
技术关键词
样本
有效性
词嵌入向量
进化方法
多阶段
策略
格式
进化系统
人工智能技术
采样模块
标签
网络结构
基座
超参数
列表