摘要
本申请提供一种基于强化学习优化的多轮自动机器学习智能体系统。包括:任务解析模块,用于生成供MLE智能体调用的初始提示;MLE智能体模块,用于生成可执行代码;代码执行器,用于生成执行结果;评价器,用于输出各指标的归一化值及代码正确性标识;奖励构建模块,用于生成奖励值;强化学习优化器,用于计算群体平均回报与候选优势,并基于候选优势更新MLE智能体模块的策略参数;多轮交互控制模块,用于在多轮交互过程中将上一轮的执行结果与奖励值反馈至MLE智能体模块,控制下一轮代码生成,直至满足预设终止条件。本申请能够实现策略自适应演化、细粒度信用分配的强化学习优化以及多轮闭环的自动化流程改进。
技术关键词
生成可执行代码
智能体系统
指标
评价器
优化器
资源监控
执行器
预训练语言模型
策略
错误码
控制模块
标识
参数
数据
因子
语义
存储模块
配额
系统为您推荐了相关专利信息
安全性分析方法
智能模块
监控器
神经网络模型
安全性分析系统
污染源检测方法
机器学习模型
水体
循环神经网络模型
指标
资源推荐模型
信息资源推荐方法
偏好特征
实时数据
社交
干细胞培养基
白血病抑制因子
体细胞
补充剂
疾病