OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启

搜索
AI-TNT
正文
资源拓展
OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启
2025-01-24 10:19

OpenAI热炒已久的智能体,刚刚正式发布!


OpenAI官方介绍:


Operator是我们的首批智能体之一。这些AI能够独立为你完成工作——只需给它一个任务,它就会执行


be like,给它一个购物清单,Operator就能完全自主地帮你买好东西。


OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启


可以看到操作老哥的双手已经离开键盘,屏幕上的所有操作都是Operator自己完成。


还能让它来预定餐厅:

OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启



这边奥特曼直播刚结束,OpenAI总裁Brockman就迫不及待地宣布:


2025是智能体之年。


OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启


并且这一次,Operator官宣即上线——只不过,暂时只面向Pro用户,对,就是一个月200刀(约合人民币1458元)的那个大会员。


看罢直播,网友们还是非常兴奋的,直呼“疯狂星期四”。



OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启


但是嘛……


OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启



嗯,Operator很香,但要是开源就更棒了,DeepSeek、Meta快卷起来(doge)。


玩转浏览器,无需人类辅助


口说无凭,咱们还是先通过官方Demo,来看看Operator到底有多“独立自主”。


它几乎可以使用任何网站,无需人类的操作辅助。


OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启



比如从Allrecipes上找到一份蛤蜊扁面条的食谱,然后把所有的食材都放到我instacart的购物车里?



OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启



它操作这一切的逻辑和人类一样,看到了哪些图片、该点击哪些按钮。


这和其他使用API或者基于编程接口的Agent不同,它是基于文本的思维链进行推理。



OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启




确认好菜单后,去哪个店下单买菜呢?


人类进一步给出指令,使用Gus’s,然后Operator就会到对应的网站开始下单。



OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启



遇到登录、支付等操作时,Operator会将操作权交还给用户。


在用户实测中,有博主发现如果Operator被Reddit墙了,它还会自己在搜索时就加入“Reddit”关键词以找到相关帖子。



OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启



用户也可以通过添加自定义指令,获得个性化体验。比如设置订机票时的首选航司。


Operator允许用户保存提示,以便在主页上快速访问,非常适合重复任务,如在购物网站上补货。


Operator也能同时运行多个任务,就像是打开多个网页那样,比如让它在Etsy上订购个性化的搪瓷马克杯,同时在Hipcamp上预订露营地。



OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启




Operator的底层使用了一个全新的模型Computer-Using-Agent(CUA)


通过将GPT-4o的视觉能力和高级推理强化学习相结合,CUA可以进行GUI交互。


Operator可以看到网页界面的内容,使用鼠标、键盘允许的所有操作。由此它可以自动操作,而无需自定义的API集成。


如果遇到问题或者出现错误,Operator可以利用推理能力自我纠错。并在它卡住需要帮助时,将控制权交还给用户。


CUA在WebArena和WebVoyager两个基准测试中都取得了SOTA。



OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启



目前,美区的Pro会员已经可以通过operator.chatgpt.com来使用Operator。Plus、Team、Enterprise等付费用户和其他地区的胖友们,还得再等等,但OpenAI承诺未来会将这些功能集成到ChatGPT中。


OpenAI迈入“Level 3”


2024年7月,OpenAI发布了“从AI到AGI的五步过程”:


  • Level 1:Chatbots,AI可以以对话的方式与人互动。
  • Level 2:Reasoners,AI科技解决人类水平的问题。
  • Level 3:Agents,AI可以作为系统执行一些行动任务。
  • Level 4:Innovators,AI可以开发创新性的AI。
  • Level 5:Organizations,AI可以完成一个组织完成的工作。


在当时的定义和规划中,OpenAI表示自己还只处于Level 1阶段,正在靠近Level 2。


而现在,随着Operator的发布,奥特曼宣布:


这是我们进入Level 3的开始。


值得注意的是,就像开头提到,OpenAI悄悄画了个重点:Operator还只是“首批”而非唯一智能体。


在直播中,奥特曼也预告了:

我们还将在未来几周和几个月内推出更多智能体。



OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启


One More Thing


就在OpenAI今天这场直播之前,还有一个小小的花絮。


Operator发布2小时前,OpenAI发了一条推文,表示修复了ChatGPT和API错误率高的问题。


OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启


又虚晃了网友们一枪(doge)。


OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启


另一个好消息是,奥特曼还预告,ChatGPT免费版就能用上o3-mini。


OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启



文章来自微信公众号 “ 量子位 ”,作者 明敏 鱼羊


OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启


1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号