首先先来解释下标题。
1. Genspark 是啥?我们在去年 6 月就有过介绍,Genspark 是由前百度小度的 CEO 景鲲和 CTO 朱凯华创业做的 Agent 产品,去年刚开始的定位还是 Agent Search Engine,到了今天升级了不少。并且在今年三月,官宣拿到了一亿美金的 A 轮融资。
2. 超越了 Manus?Genspark 于今天推出了通用的 Super Agent,并据官方介绍,Genspark 在那个 Manus 超越 Deep Research 的 GAIA Benchmark 上超越了 Manus。
我们之前分享活动上聊到过 GAIA 这个榜单,下图的前三个产品都未将评测结果公开提交,可能存在一定的自卖自夸之嫌。
对此,在今天凌晨 Manus 的合伙人、产品经理 hidecloud 似乎做出了回应。They are not the real player,这个 They 都包括哪些呢
最近做通用 Agent 产品和开源项目的实在是太多了...本来没打算详细写 Genspark,但似乎隐隐闻到了一丝火药味,让事情变得有趣起来。于是我们做了一些测评,写下了这篇文章。
一二部分简单测评为主,第三部分是一些浅薄的观点。
创始人景鲲(Eric Jing)在产品发布视频中介绍了许多非常惊艳的案例。
因为 Genspark 和 Manus 一样支持将 Agent 执行过程进行链接分享和回放(还支持直接让观看回放的用户复制一遍该对话过程,并基于上文继续对话),
所以我们能直接看到这些演示案例背后运行的具体过程,比如:
1. 去某地旅游规划并且 AI 直接打电话预约餐厅
https://www.genspark.ai/autopilotagent_viewer?id=4b686480-eecf-44f6-a338-dc10dc3f5af6
2. 为食谱制作分步的短视频
https://www.genspark.ai/autopilotagent_viewer?id=09d97ab6-c682-424a-8dbd-abf11765e388
3. 创作有关近期新闻事件的南方公园风格的剧集
https://www.genspark.ai/agents?id=5acd581a-dbb1-42db-a248-f67976b435d4
我们也做了一些测试,比如:“我要在 4 月 8 日飞拉斯维加斯参加谷歌云的活动,帮我查一下附近有什么旅游景点, 以及帮我预约一个酒店”。
Genspark 做了很好的规划和任务拆解,调用了旅行、搜索、链接读取、思考、地图搜索等工具,准确的通过联网搜索获取了本次大会的地址,定位到了附近的一些酒店进行推荐。
最终给出了市内和周边的旅游景点,并且给出了图文并茂的多个酒店推荐。
其后我想尝试直接让 AI 来帮忙打电话预定首选推荐的曼德勒湾酒店。
但是需要先验证你的电话,且只支持美国、加拿大和日本的号码。短信验证之后需要挑选一个语音助手,填写姓名。
千万别拿租借接码平台的号码来期望通过验证...因为后面还有一道电话验证...我就被卡在这里了(本来还想让 AI 给我打个电话表白来着)。
接着又测试了连续视频生成,“帮我做一个卡通版的特朗普和马斯克肉搏的三段短视频,故事情节要连贯,场景要一致,并配音”。
直到这时我才意识到 Genspark 不是免费的!这里吐槽一句,现在的交互设计不太行,历史对话还有积分列表难找的很,以及看不到每一次任务到底消耗了多少积分!
视频生成的成本还挺贵的,能理解,充个 Plus,继续任务!
Genspark 规划出了三段视频大概的场景描述,便开始了生成。当遇到问题时(此处应该是肖像问题),Genspark 没有卡机也没有跳过,而是换了个模型重新生成👍
最后生成的三段视频确实非常连贯!第一幕争论,第二幕打斗,第三幕意外和好握手...配音也都有,整体效果不算惊艳(我觉得现在的视频生成能力就是还比较弱),但应该还是能抽出不错的 Good Case 的。以及最后要是能合成一个完整的有配音的视频就好了。
之后还测试了一个将 Genspark 在 YouTube 上发的视频(就是前面视频号的那个)链接,发给 Genspark 根据其中内容,帮我做成 10 页 PPT。
Genspark 对这个任务的 Workflow 拆解也很清晰,首先它调用视频理解工具获取了视频的字幕,然后根据字幕里的信息去搜索相关图片用作 PPT 的配图,接着拆解成十页内容,根据一定预设的规则,用前端代码的形式生成内容。
最终支持直接导出 PDF,内容存在一定幻觉但整体效果相当不错!
朱啸虎前辈说“所有的 AI 应用都是套壳应用”,庄明浩老师前段时间做过一个播客说“Manus 没有秘密”。是的,Genspark 也是没有什么秘密的套壳产品。
即使官方不放出来下面这个图,大家也都能猜到具体是怎么回事:开发丰富的 Tool Use 能力,比如 Genspark 可以让 AI 打电话和视频生成,但 Manus 还不行,以及积累足够多优质的私有数据,让 Agents 更好的去推理,规划,调用这些工具和访问数据。
我认为 Genspark 可以说是一匹很快的黑马,相比于我们最近看到的各个大厂和初创团队在通用 Agent 上的尝试,Genspark 的领先是毋庸置疑的。这里的“很快”不只是说他产品更新推出的速度,还指的是 Agent 规划和执行的速度。
比如在“访问这个网页 https://www.agentrecipes.com/,帮我把每一个页面都打开看一遍,然后翻译成中文,复刻一个中文版的网站发我”这个案例上,Genspark 和 Manus 都完成的非常出色(AutoGLM 沉思做不了),但 Genspark 的速度比 Manus 快非常多。
一个很核心的原因在于,Genspark 并没有采用 Browser Use、Computer Use 这种方式。
我总觉得 AI 在操作浏览器和虚拟机的时候有些笨拙迟钝,或许我们就不应该给 AI 用这些面向人类开发的工具,而未来应当给 AI 专门设计一些工具。真格基金管理合伙人在接受晚点 Post 的访谈时也提及到这样的观点。
当然 Genspark 如此设计也有它一定的局限性,比如“打开知乎,给庄明浩最近十条回答点赞”这个事情,Genspark 就做不了,没法登录没法点赞,但 Operator 和 Manus 可以。
Anyway,从最早的 Agent Search 到 Genspages 再到现在的 Super Agent,Genspark 确实是一个令人兴奋的产品。
在未来几个月,我们完全可以相信,会有非常多全新的所谓通用的或是垂直的 Agents 诞生,它们会变得更通用,更易用,且更物美价廉。
我们期待了两年的 Agent Universe 时代终于要到来了!
大浪淘沙,Who is the real player?让我们一起见证!
文章来自于“特工宇宙”,作者“特工少女”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md