强如Operator也怕验证码,1450元花得值吗?第一波实测来了

搜索
AI-TNT
正文
资源拓展
强如Operator也怕验证码,1450元花得值吗?第一波实测来了
2025-01-24 21:36

要花1450元才能玩到Operator,让本来满满期待的大伙,一下难受住了。


强如Operator也怕验证码,1450元花得值吗?第一波实测来了


而交了钱的各位,开始兴奋的晒出各种测试结果。


有网友分享,Operator通过浏览网页在3分钟之内帮打找到了附近牙医诊所,回报了地址和电话。



强如Operator也怕验证码,1450元花得值吗?第一波实测来了


也有人让它作为研究助手,在arXiv上挨个打开每篇论文,看完后输出总结。



强如Operator也怕验证码,1450元花得值吗?第一波实测来了



也有“坏人”专门出难题,看AI如何应对:让Operator到ChatGPT官网使用Operator会如何?


但没想到OpenAI预判了他的预判,直接给出一个嘲讽式报错。


试得好,下次别试了。


强如Operator也怕验证码,1450元花得值吗?第一波实测来了



强如Operator,上网冲浪时也会被验证码难住,但好在它学会了向人类用户求助:


我遇到了一个验证码……你能接管并帮我搞定吗?


强如Operator也怕验证码,1450元花得值吗?第一波实测来了



没错,这只是一个早期预览版。


参与发布直播的基础研究贡献者(Fundamental Research Contributor)Casey Chu认为,它会犯错误,但它让你提前窥见未来。


而且他的这个帖子,就是Operator寄几发的,成功套娃了:



强如Operator也怕验证码,1450元花得值吗?第一波实测来了


核心贡献者(Core Contributor)Yilong Qin认为,测试时间计算的Scaling Law在这里继续发挥威力。


给Agent更多时间,它会内省、更新、一遍又一遍地尝试直至最终成功。


强如Operator也怕验证码,1450元花得值吗?第一波实测来了


同为核心贡献者的姚顺雨表示,有了强化学习的新范式,Operator的进步速度会像从o1-preview到o3一样。


强如Operator也怕验证码,1450元花得值吗?第一波实测来了



同时他介绍,Agent是OpenAI(甚至是AI)诞生以来就有的目标,在发展过程中做了多次尝试。


但只有发现GPT和草莓(o1)两种新范式后,Agent的潜能才真正被解锁。
2025年将是Agent之年。


强如Operator也怕验证码,1450元花得值吗?第一波实测来了


他为什么这么说?还要从OpenAI成立之初讲起。


OpenAI的十年Agent之路


早在2016-2017年,OpenAI就通过Word of Bits和Universe探索了让AI操作浏览器上网。


Word of Bits由OpenAI与斯坦福大学合作,参与者包括大家熟悉的Karpathy和Jim Fan、斯坦福大学副教授Percy Liang等,以及姚班校友施天麟。


强如Operator也怕验证码,1450元花得值吗?第一波实测来了



施天麟只在OpenAI工作了一年,随后在2017年创办了Cresta,业务正是AI Agents 方向,专注于为客服中心提供各种AI助手。


2024年11月,Cresta完成1.25亿美元D轮融资,总融资金额达到2.7亿美元。


强如Operator也怕验证码,1450元花得值吗?第一波实测来了



OpenAI Universe则是一个Agent训练和测试的平台。他们从李飞飞的ImageNet上受到启发,希望能把图像识别任务上的快速进步复制到Agent领域。


2017年的Universe已经能让AI完成一些简单的浏览器操作,以及玩Atari游戏等任务。



强如Operator也怕验证码,1450元花得值吗?第一波实测来了



但随后不久,OpenAI就把主要精力从强化学习转向了语言模型GPT系列上。


2021年底,到了GPT-3时代,OpenAI不忘初心推出WebGPT,使用基于文本的Web浏览器更准确地回答开放式问题。


强如Operator也怕验证码,1450元花得值吗?第一波实测来了


这项研究把GPT-3回答开放式问题的真实性和有用性从20%-30%提升到了40%-80%,但仍未达到人类平均水平。


强如Operator也怕验证码,1450元花得值吗?第一波实测来了


WebGPT的作者中,有4位也出现在最新的Operator贡献名单里,分别是欧阳龙,Christina Kim,Reiichiro Nakano,Kevin Button。


其中Reiichiro Nakano(中野礼一郎)是Operator项目的研究主管之一,也出现在了发布直播中。


强如Operator也怕验证码,1450元花得值吗?第一波实测来了



Sam Altman,Yash Kumar,Casey Chu,Reiichiro Nakano


最新的Operator背后模型命名为CUA(Computer Use Agent),与此前的探索相比,有了几项重大突破:


  • 多模态理解带来“感知”能力,由GPT-4o提供。长上下文作为“任务视野”,让Agent能连续执行任务长达20分钟。
  • o1式的思维链推理,这种内心独白使模型能够评估其观察结果、跟踪中间步骤并动态适应。


参与、观察了整个十年发展过程的Karpathy总结到:


Operator之于数字世界,就像人形机器人之于物理世界。
在数字世界的发展速度要比物理世界更快,因为翻转比特的成本相比移动原子只有约1/1000。
……
与其说2025年是Agent年,不如说2025-2035年是Agent的十年


强如Operator也怕验证码,1450元花得值吗?第一波实测来了



World of Bits

https://proceedings.mlr.press/v70/shi17a/shi17a.pdf


Universe

https://openai.com/index/universe/


WebGPT

https://openai.com/index/webgpt/


Operator

https://openai.com/index/openai-gym-beta/


参考链接:

[1]https://www.reddit.com/r/singularity/comments/1i8fi3l/openai_operator_finds_me_an_in_network_dentist/

[2] https://x.com/omarsar0/status/1882545077219926031

[3]https://x.com/liambolling/status/1882565960697282812

[4]https://x.com/caseychu9/status/1882507704566235407

[5]https://x.com/yilongqin/status/1882507643669123230

[6]https://x.com/liambolling/status/1882565960697282812

[7]https://x.com/karpathy/status/1882544526033924438



文章来自微信公众号 “ 量子位 ”,作者 梦晨


强如Operator也怕验证码,1450元花得值吗?第一波实测来了

1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号