Karpathy强推,大厂抢着「复古」命令行,Star数全都上千了

AITNT
未登录
正文
资源拓展
Karpathy强推,大厂抢着「复古」命令行,Star数全都上千了
2026-04-07 09:27

最近,飞书、钉钉、企业微信接连推出 CLI,智能体生态战役再次打响。


  • 飞书:https://github.com/larksuite/cli
  • 钉钉:https://github.com/DingTalk-Real-AI/dingtalk-workspace-cli
  • 企业微信:https://github.com/WecomTeam/wecom-cli


头部三家推出相隔不到三天,GitHub 的 Star 数都已经上千,这热度是真没得说。


CLI 即命令行界面(Command Line Interface),是一种「传统」得不能再传统的人机交互方式。与我们现在每天使用的、依靠鼠标点击和视觉反馈的 GUI(图形用户界面)相比,CLI 完全依靠纯文本指令来操控计算机或软件。


Karpathy强推,大厂抢着「复古」命令行,Star数全都上千了


它的用法自然也十分简单,举个直观的例子:在图形界面上,你需要打开浏览器,登录企微后台,点击通讯录,找到对应部门,然后导出员工名单。


用 CLI 操作的话,你只需要在终端(Terminal)输入一行纯文本代码,比如 wecom-cli contact get_userlist,系统就会直接返回你需要的数据。


剥离所有视觉包装之后,用命令行的方式可以直达系统底层逻辑,对人类来说很枯燥,但对智能体(Agent)反而友好。正如知名 AI 学者 Andrej Karpathy 所说,CLI 的「复古」正是它在 AI 时代焕发新生的原因。在智能体快速发展的当下,CLI 完美契合了大语言模型(LLM)的运作逻辑。


Karpathy强推,大厂抢着「复古」命令行,Star数全都上千了


这其中分为几个方面:


纯文本是大模型的「母语」,让智能体去理解复杂的图形界面、定位按钮(GUI)或者通过计算机视觉去点击屏幕,既缓慢又极易出现幻觉。相反,大模型最强大的能力就是阅读与生成文本。对于智能体来说,敲打一行准确的 CLI 命令,比让它去识别屏幕上的「导出」按钮要自然、精准好几倍。


CLI 也可以跨越 API 接入鸿沟。如果你想让 Claude 或 Cursor 帮你操作企业办公软件,AI 需要先阅读几百页的 API 文档,还要处理复杂的身份鉴权、Token 刷新、加密解密和网络请求。而官方封装好的 CLI 把这些脏活累活全解决了。AI 不需要懂底层接口怎么写,只需直接调用现成的命令行,就能立刻调动系统能力。


CLI 具备模块化管道:在终端环境中,各个 CLI 工具可以像积木一样无缝串联,这就是 Karpathy 强调的「作为更大管道的模块」。


与 AI 的「标准接口」MCP (Model Context Protocol) 的趋势相比,CLI 可谓殊途同归。现在利用 MCP 让 AI 能够统一读取各种数据源,CLI 执行标准动作,我们或许可以获得稳定且完整的工作闭环。


除了国内科技公司的 CLI,国外科技公司及开源项目均推出了各具独特优势的 CLI 智能体工具。


其中最知名的自然是 Claude Code,这款由 Anthropic 推出的智能体以强大的推理能力和超大的上下文窗口而闻名;谷歌推出的 Gemini CLI 则以其极高的运行速度、多模态处理能力以及供日常使用的免费层级而受到关注;OpenAI 提出的 Codex CLI 不仅能与自家的 GPT 模型实现原生集成,还提供了简洁直观的用户体验。


随着国内大厂的跟进,CLI 正在激起一场新的生态抢位战。如果企业级软件的下一代交互入口将不再是应用本身,而是无处不在的智能体,那么 AI 执行层的标准,就需要由通过开源的 CLI 来定义,这样才能把海量的 AI 自动化工作流绑定在自己的生态之内。


总之,如果你提出的 AI 工具不能被 Agent 原生、轻松地使用,你就会在未来的 AI 工作流中被淘汰。


如何为你的 Agent 打造完美的 CLI?


趋势已经明朗,但把 CLI 交给 AI 用,和交给人用是两套逻辑。正如开发者 Eric Zakariasson 所总结的,如果你正在为智能体构建 CLI,以下几条「反直觉」的设计模式能帮你省下大量调试时间:


大多数 CLI 的设计都假定键盘是由人操作的,你会发现智能体经常卡在无法回答的交互式提示上,或者解析没有示例的帮助页面。


因此,你需要使其非交互:如果命令行界面(CLI)在执行过程中突然弹出提示符,智能体就会卡住。它无法在正确的时间按下方向键或输入「y」。所有输入都应该可以作为标志传递。交互模式应作为标志缺失时的备用方案,而不是主要路径。


# this blocks an agent

$ mycli deploy

? Which environment? (use arrow keys)

# this works

$ mycli deploy --env staging


不要一开始就把所有文档都放上去。智能体运行 mycli,识别子命令,选择一个,然后运行 mycli deploy --help,获取所需信息。不会浪费上下文信息在它不会使用的命令上。让它在运行过程中自行发现所需内容。


让 --help 真正发挥作用。每个子命令都应该有 `--help` 选项,并且每个 `--help` 选项都应该包含示例。示例已经完成了大部分工作。代理程序匹配 `mycli deploy --env staging --tag v1.2.3` 的模式比读取描述信息要快得多。


$ mycli deploy --help

Options:

--env     Target environment (staging, production)

--tag     Image tag (default: latest)

--force   Skip confirmation

Examples:

  mycli deploy --env staging

  mycli deploy --env production --tag v1.2.3

  mycli deploy --env staging --force


接受所有参数的标志和标准输入。智能体以管道方式思考,它们希望将命令串联起来,并在工具之间传递输出。不要要求以奇怪的顺序提供位置参数,也不要因为缺少值而回退到交互式提示。


cat config.json | mycli config import --stdin

mycli deploy --env staging --tag $(mycli build --output tag-only)


快速失败并提供可操作的错误信息。如果缺少必需的标志,不要挂起程序。立即报错并显示正确的调用。只要提供一些信息,代理程序就能很好地进行自我纠正。


Error: No image tag specified.

  mycli deploy --env staging --tag <image-tag>

  Available tags: mycli build list --output tags


使命令幂等。代理会不断重试。网络超时、任务执行过程中上下文丢失。重复执行相同的部署操作应该返回「已部署,无操作」,而不是创建重复项。


添加 --dry-run 参数以执行破坏性操作。代理程序应该能够在提交部署或删除操作之前预览其效果。让它们验证计划,然后再实际运行。


$ mycli deploy --env production --tag v1.2.3 --dry-run

Would deploy v1.2.3to production

- Stop 3running instances

- Pull image registry.io/app:v1.2.3

-Start3new instances

No changes made.

$ mycli deploy --env production --tag v1.2.3

✓ Deployed v1.2.3to production


--yes 或 --force 参数用于跳过确认。人类会看到「你确定吗?」的提示,而智能体可以通过传递 `--yes` 参数来绕过此提示。将安全路径设为默认路径,但允许绕过此路径。


可预测的命令结构。如果智能体学习了 `mycli service list` 命令,它应该能够推测出 `mycli deploy list` 和 `mycli config list` 命令。选择一个模式(资源 + 动词)并到处使用它。


成功后返回数据。显示部署 ID 和 URL。表情符号很好看,但并非必需。


deployed v1.2.3 to staging

url: https://staging.myapp.com

deploy_id: dep_abc123

duration: 34s


如果你正在构建供代理使用的命令行界面 (CLI),这些模式可以节省大量调试时间。大部分工作只是将人类隐式推断出的东西明确地表达出来。


把人类隐式推断的逻辑,变成明确的机器指令 ——CLI 的复兴,可以帮我们把数字世界的控制权,以一种可靠的方式移交给 AI。


参考内容:

https://x.com/ericzakariasson/status/2036762680401223946

https://x.com/karpathy/status/2026360908398862478


文章来自于"机器之心",作者 "泽南"。

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群