训练大模型时,工程师绝对不会指望网络做一次前向传播就能收敛。它需要数据喂养、Batch切分、学习率控制、验证集筛选以及优化器状态的迭代试错。
但在处理Agent Skills时,当前的工程实践却极其粗糙:要么人工手写一版,要么让LLM单次生成(One-shot),或者在Agent执行失败后通过松散的自我修正(Self-revision)追加几条经验。这个过程本质上是在“写文档”,而不是在“训练能力”。
为了打破这种极其脆弱的领域适应现状,来自微软、上海交通大学、同济大学和复旦大学的研究者联合提出了SKILLOPT。该框架将深度学习优化器的严谨性引入了文本空间,通过设置Rollout批次、文本学习率和严格的保留验证门控(Held-out Selection Gate),让技能文档的迭代真正具备了可控、稳定且可复现的训练特征。


本文为您拆解这套系统的核心控制流,探讨它是如何用纯文本操作复现神经网络训练过程,并最终生成体积不到2000 Token却能实现全域迁移的SKILL.md的。
项目地址:https://github.com/microsoft/SkillOpt

SKILLOPT的核心思想是建立一个系统化的文本空间优化过程。研究者将深度学习优化中的关键变量严格映射到了自然语言处理层面。这种映射不是单纯的隐喻,而是具有实际操作指导意义的系统设计:
best_skill.md。在这种架构下,目标模型(Target Model)及其执行框架(Harness)保持完全冻结,只负责依据当前技能文档执行任务。所有的轨迹分析、编辑提案和合并排序都由一个独立的优化器模型(Optimizer Model)在离线阶段完成。
SKILLOPT采用目标执行模型(Target Model)与优化器模型(Optimizer Model)分离的非对称架构。在训练阶段,目标模型负责与沙盒环境高频交互提供数据,优化器模型则在后台进行离线反思、合并与精炼,最终输出一份高度浓缩且完全自主可读的最终技能文件(best_skill.md)。


优化器模型并不直接阅读所有轨迹并输出一段新提示,而是执行结构化的处理:
append、insert_after、replace 和 delete。局部提案必须经过分层合并以消除冗余和冲突:


为了捕获长视野规律,研究者设计了隔离的宏观更新机制:
研究者在极其多样化的环境中对SKILLOPT进行了系统性评测。这包括6个基准测试(SearchQA, SpreadsheetBench, OfficeQA, DocVQA, LiveMathematicianBench, ALFWorld);涵盖了单轮问答、高达24次调用的多轮工具循环、复杂代码生成与物理环境状态交互。系统适配了7款模型(从前沿规模的GPT-5.5到4B级别的小模型Qwen3.5-4B)以及3种执行框架(直接对话、Codex、Claude Code)。

在52个 (模型, 基准, 框架) 的评估单元中,SKILLOPT取得了52项最优或并列最优的成绩。在直接对话、Codex和Claude Code执行环境中,SkillOpt在所有评估单元上取得最优或并列最优结果,且相对无技能基线普遍带来正向提升。
技能作为一种适配层,必须能嵌入现代的CLI或工具沙箱中。
通过剥离关键组件,研究者验证了系统设计的有效性:

对于资深工程师而言,一项技术的价值不仅在于刷榜,更在于其工程可用性与边际成本。SKILLOPT导出的文本技能件表现出了极高的通用与复用价值。

SKILLOPT证明了高能力的边界模型(作为优化器)可以提炼出低成本推理侧能够完全利用的结晶知识。

best_skill.md 的接受编辑次数仅为 1到4次(中位数为2.5次)。例如,LiveMath凭借单次被接受的编辑就实现了 +29.3分的提升。
最终技能通常只有数百到约两千Token,且仅由1到4次接受编辑构成;程序型任务的单位测试点训练Token成本最低。
分析生成的最终规则能够发现,优化器完全放弃了对具体实例的过拟合,转而生成类似高级工程师总结的最佳实践:

SKILLOPT最底层的优雅在于对状态读写的严格隔离。优化器侧的元记忆、慢速更新保护区以及拒绝缓冲区均在后台离线完成计算和试错,最终交付给目标模型的,仅仅是一份干净、紧凑的Markdown文件。这种计算前置的设计虽然带来了Rollout阶段的算力消耗,却硬生生将自然语言从不可控的“指令流”,约束成了可验证的“代码逻辑”。正如网络权重需要反向传播来收敛,Agent的底层适应能力也理应拥有这样一套严密的基础设施。SKILLOPT证明了,即便不触碰模型底层的safetensors文件,合理的控制流依然能压榨出极其可观的程序性性能。在SkillOpt之外,同一批研究者还发布了一篇可以称为“前置诊断篇”的SkillLens研究,感兴趣您可以看下我前天的文章

文章来自于"AI修猫Prompt",作者 "AI修猫Prompt"。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0