当前搜索AI市场面临着一个显著的断层:Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview等专有解决方案与开源替代品之间存在巨大差距。这些封闭式系统虽然表现优异,但却限制了透明度、创新和创业自由。作为一名正在开发Agent产品的工程师,你是否曾经渴望拥有一个功能强大且完全开放的搜索框架?开放深度搜索(Open Deep Search,ODS)应运而生,它通过增强最新开源大语言模型的推理能力,辅以智能使用网络搜索工具的推理代理,成功缩小甚至超越了专有解决方案与开源替代品之间的性能鸿沟。
研究者指出,与LLM领域不同的是,在LLM领域闭源和开源产品之间的差距并不大(比如GPT4和DeepSeek R1),但在高级/代理/AI搜索方面,闭源和开源产品之间存在巨大鸿沟。Sentient Research团队开发的ODS旨在弥合这一鸿沟,为开发者和构建者创造一个公平的竞争环境,推进搜索AI的发展。
ODS由两个关键组件构成:开放搜索工具(Open Search Tool)和开放推理代理(Open Reasoning Agent)。这种即插即用(plug-and-play)的设计允许你自由选择任何基础语言模型,无论是开源模型如DeepSeek-R1,还是通过API访问的闭源模型。开放推理代理解释给定任务并通过协调一系列动作来完成它,包括调用工具,其中之一就是研究者创新的开放搜索工具。这种组合在SimpleQA和FRAMES两个基准测试中几乎匹配甚至超越了现有最先进的基线,例如在FRAMES评估基准上,ODS将最近发布的GPT-4o Search Preview的准确率提高了9.7%。
研究者将ODS描述为一个轻量级但功能强大的搜索工具,专为与AI代理无缝集成而设计,支持深度网络搜索和检索,并针对Hugging Face的SmolAgents生态系统进行了优化。这两个组件均完全开源,可以通过GitHub仓库进行测试。
ODS的两个版本的代码库可在https://github.com/sentient-agi/OpenDeepSearch获取。
论文链接为https://arxiv.org/abs/2503.20201
ODS架构图
开放搜索工具(Open Search Tool)是ODS的核心创新之一,它显著改进了现有开源搜索工具如OpenPerplex和Perplexica的功能。这些传统工具主要将原始SERP结果作为上下文传递给语言模型,而ODS的搜索工具采用更为复杂的过程:它会在必要时重新表述查询,从前N个片段中提取上下文,并应用分块和重新排序以过滤出相关性阈值以上的内容,确保包含所有相关搜索结果上下文。此外,它还为ArXiv和PubMed等主要网站API实现了自定义处理。
搜索流程的第一步涉及处理原始用户查询并生成k个保持原始上下文的新重构查询。这一步骤源于原始查询的语义结构与提供满意答案所需的底层上下文之间的差距。例如,当用户想知道"如何让我的互联网更快"时,这个查询可能过于宽泛,而隐含的上下文可能未被涵盖。查询重构器会生成其他查询,如"如何增强Wi-Fi信号强度"、"如何增加带宽"和"如何减少延迟"。研究表明,这一步骤对于改善所检索上下文的覆盖范围和多样性,进而提高系统整体性能至关重要。
搜索流程的第二步涉及从搜索引擎结果页API(SERP)检索相关上下文。检索到的结果随后被格式化、处理,并插入到语言模型的上下文中。格式化程序参考了FreshPrompt格式,包含每个搜索结果的元数据,如标题、URL、描述和创作日期(如果可用)。此外,系统会提示语言模型在搜索上下文包含冲突信息时,优先考虑政府机构、教育机构和知名研究机构等可靠来源。
作为搜索流程的额外步骤,ODS会通过添加来自SERP API检索的前m个链接的相关段落来增强语言模型的上下文。具体而言,系统会抓取相关网页,嵌入段落块,并根据与用户查询相关的重新排序得分检索每个网页中的前n个相关段落。这使得上下文能够为引发"更深入"推理的查询提供深入的答案。
开放推理代理(Open Reasoning Agent)接收用户查询作为输入,利用基础语言模型和各种工具(包括前述的开放搜索工具)生成答案。ODS提供了两种解决方案:一种基于思维链和ReAct代理(ODS-v1),另一种基于代码链和CodeAct代理(ODS-v2)。这两种方法展现了思维与行动如何协同工作以解决复杂问题,令人印象深刻。
ReAct提示结构
ODS-v1基于思维链(Chain-of-thought,CoT)推理和ReAct代理。思维链提示通过鼓励模型在回答前"停下来思考",引出了语言模型代理令人印象深刻的推理能力。ReAct(推理与行动)框架则通过迭代过程将推理步骤与行动执行协同起来,以增强任务完成和决策能力。该框架包含三个交错组件:思考(Thought)、行动(Action)和观察(Observation),通过标准化接口实现工具集成。ODS-v1集成了CoT一致性采样、ReAct代理框架和少样本提示,使用三种工具:网络搜索(开放搜索工具)、数学处理(Wolfram Alpha API)和继续思考(使用基础语言模型进行延续推理)。
研究者详细说明,ODS-v1利用ReAct推理提示的少样本示例,将思考、行动和观察步骤作为上下文示例交织在一起,指导模型调用工具。与对每个查询使用相同搜索次数的固定方法不同,ODS-v1会明智地确定何时需要额外搜索,从而最大限度地提高效率和准确性。
ReAct实例
虽然思维链在语义推理方面已证明有效,但在需要精确数字或符号计算的任务中常常面临挑战。代码链(Chain-of-Code,CoC)利用语言模型的代码编写能力生成并执行代码或伪代码,以解决算法和语义问题。这种方法不仅扩大了语言模型可以处理的推理问题范围,还提高了它们解决复杂任务的准确性。CodeAct则显示,为工具调用生成可执行Python代码相比传统的基于JSON的方法能带来显著的性能提升。在ODS-v2中,CodeAct代理能够使用代码更自然地进行行动,因为代码可以更容易地组合、模块化和泛化。
研究者指出,ODS-v2让模型能够生成可执行的Python代码,以实现更精确的推理和工具使用。与ODS-v1一样,ODS-v2也可以智能地编排一系列动作,适应每个查询的复杂性,并明智地确定何时需要额外搜索。
CodeAct代理回答多跳问题
ODS与流行的闭源搜索AI进行了比较,包括Perplexity的默认搜索AI和高级推理搜索AI(Perplexity Sonar Reasoning Pro),以及OpenAI的最先进搜索AI:GPT-4o Search Preview。评估使用了两个基准测试:FRAMES和SimpleQA。FRAMES包含824个具有挑战性的多跳问题,需要集成来自wiki的多个来源;SimpleQA是一个针对GPT-4对抗性收集的基准测试数据集,包含4326个短形式事实性问题。
研究者选择FRAMES作为主要评估基准,因为它具有足够的挑战性,以至于最先进的专有解决方案仍在努力攻克,而且评估数据尚未耗尽。他们强调,当与开源的DeepSeek-R1模型结合时,ODS实现了以下性能:
值得注意的是,研究者指出DeepSeek-R1已经记住了很多事实,在没有访问网络的情况下就达到了82.4%的准确率。因此,SimpleQA可能不是测试AI高级推理能力的最佳评估基准,因为每个问题只测试单个信息的事实性。
在FRAMES基准测试中,ODS-v1+DeepSeek-R1在每次查询使用单个网络搜索的情况下达到了56.7%的准确率,这比使用最先进推理语言模型(如DeepSeek-R1和GPT-4o)和搜索AI(如Perplexity和Perplexity Sonar Reasoning Pro)有了显著提升。基于CodeAct的ODS-v2+DeepSeek-R1选择使用更多搜索,平均每个查询3.39次搜索,在FRAMES上达到了75.3%的准确率。这表明ODS能够适应初始搜索结果和模型输出的质量,仅在必要时明智地使用额外搜索。
搜索次数直方图
在SimpleQA基准测试中,ODS-v1和ODS-v2分别达到了87.7%和88.3%的准确率,超过了闭源的Perplexity解决方案。这一增益来自开放搜索工具提供的高质量搜索结果和开放推理代理框架的共同作用。例如,开放推理代理能够正确识别答案并使用Wolfram Alpha API进行额外检查,而Perplexity Sonar Reasoning Pro则在潜在答案之间感到困惑。
开放搜索工具示例
通过多个实例,我们可以看到ODS如何处理复杂查询并产生准确结果。在一个FRAMES示例中,ODS+Llama3.1-70B意识到需要第二次搜索,再次搜索以找到摇滚乐队King Crimson主唱的出生年份,并正确回答了问题"1946"。而Perplexity无法确定乐队King Crimson的领导者是谁。
研究者通过详细的示例展示了ODS的实际应用能力。在下面的FRAMES示例中,ODS意识到需要第二次搜索,再次搜索以找到King Crimson乐队主唱的出生年份,并正确回答了问题。相比之下,Perplexity无法确定King Crimson乐队的领导者是谁。当ODS展现的性能改进不是来自开放搜索工具时,它们往往来自开放推理代理。
二次搜索示例
在另一个来自SimpleQA的示例中,ODS-v1利用开放搜索工具检索的高质量上下文,通过交叉检查多个来源确定了正确答案。相比之下,Perplexity Sonar Reasoning Pro未能在搜索中检索到相关信息。这些案例清晰展示了ODS如何在实践中结合开放搜索工具和开放推理代理的优势。
开放深度搜索(ODS)的推出标志着开源搜索AI领域的一个重要里程碑。通过结合开放搜索工具和开放推理代理,ODS能够与任何用户选择的语言模型无缝结合,实现即插即用的风格。这允许ODS利用最新的推理语言模型进步,实现越来越准确的性能。当使用DeepSeek-R1时,ODS在FRAMES基准测试上达到了75.3%的准确率,超过了2025年3月11日发布的GPT-4o Search Preview 10%。在SimpleQA基准测试上,ODS显著缩小了开源和闭源解决方案之间的差距。
研究者强调,ODS不仅仅代表一项技术成就——它是尖端搜索AI技术可访问性的根本性转变。随着新的开源推理LLM的发布,ODS提供了一个即插即用的框架,将无缝集成这些进步,确保开源搜索AI解决方案保持竞争力,甚至超越其专有对手。研究者认为,搜索AI的闭源主导时代即将结束,开放深度搜索只是当强大的AI技术交到全球开发者社区手中时,所能实现的可能性的开始。
作为一名Agent开发者,你现在可以自由构建在这个开源基础上,利用社区集体智慧,推动进一步创新。通过公开发布所有开源实现,研究者邀请开源社区在这项工作的基础上构建并进一步创新,从这个最先进的搜索AI解决方案开始。
References
文章来自于“AI修猫Prompt”,作者“AI修猫Prompt”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0