摘要
本发明提供了一种多模态代理在线自我探索方法及系统,通过代理与环境的动态交互,交替执行步骤采样与验证搜索机制,自动生成任务并优化策略,构建在线自我探索框架;根据逐步直接偏好优化机制,基于步骤级AI反馈生成动态偏好数据,集合化形成动态偏好数据集;构建多模态验证器,结合任务上下文、历史步骤结果及工具调用反馈,筛选推理最优解,生成推理评估验证结果;构建控制器,利用可靠性评估验证结果优化控制器,并循环持续进行偏好优化调整训练,持续优化智能体的任务执行能力、推理能力及自我探索能力。
技术关键词
多模态
探索系统
分系统
执行光学字符识别
在线
控制器
数据格式文件
动态
语言模块
机制
策略
验证子系统
图像分割
三元组
框架
种子
语义
决策
系统为您推荐了相关专利信息
高密度点云
多模态特征
激光雷达数据
骨架拓扑结构
语义特征
中央管理平台
能源
电力监测仪
机器学习算法
设备运行参数
堤坝白蚁
白蚁巢穴
多模态数据采集
防治方法
三维形态模型