摘要
本申请公开了一种自反思智能体的训练方法、装置及存储介质。其中,方法包括:利用以自然语言文本形式记载的多个第一轨迹对第一大语言模型进行监督微调,得到基于大语言模型的第一智能体,其中多个第一轨迹为成功完成相应的第一任务的专家轨迹,并且包括完成相应的第一任务的各个步骤;利用第一智能体和教师模型构建以自然语言文本形式记载且成功完成相应的第二任务的多个第二轨迹,第二轨迹包括完成相应的第二任务的各个步骤以及对第一智能体的错误进行反思的自反思步骤;以及利用第二轨迹对第二大语言模型进行监督微调,得到具有自反思能力的第二智能体。
技术关键词
大语言模型
轨迹
自然语言文本
历史交互信息
教师
训练装置
指令
处理器
标识
模板
模块
存储器
程序
系统为您推荐了相关专利信息
元胞自动机模型
病毒
分析方法
蒙特卡罗方法
可读存储介质
模型推荐方法
评价特征
编码向量
大语言模型
生成提示词
煤矿综采工作面自动化
大数据
规划
截割电机
采煤机