在 AI 发展的新阶段,大模型不再局限于静态知识,而是可以通过「Search Agent」的形式实时连接互联网。搜索工具让模型突破了训练时间的限制,但它们返回的并非总是高质量的资料:一个低质量网页、一条虚假消息,甚至是暗藏诱导的提示,都可能在用户毫无察觉的情况下被模型「采纳」,进而生成带有风险的回答。
24 年 11 月,在 Twitter 上有一个这样的案例:有开发者直接复制了 ChatGPT 生成的代码片段,但该片段源自一个搜索过程不可靠的 GitHub 页面。结果,他的私钥被意外泄露,最终损失了约 2500 美元。
这一事件揭示了问题的本质:搜索服务并不总是返回高质量、可信的网页,而用户往往难以分辨其中的潜在风险。这也意味着,Search Agent 一旦「轻信」了搜索结果,风险会迅速传递给终端用户。
图 1: LLM 服务可能由于互联网来源的不可靠搜索结果而返回不安全的代码。图源:https://twitter-thread.com/t/1859656430888026524
随着 ChatGPT Search、Gemini Deep Research 等产品的兴起,搜索智能体逐渐成为大模型的重要形态。与传统的检索增强生成(RAG)不同,搜索智能体直接调用搜索引擎,实时获取互联网上的最新信息。
图 2: RAG 和 Search Agent 在技术特点上的对比
这种模式虽然突破了大模型知识时效性的限制,但同时也引入了一个新的威胁面:搜索工具本身并不总是可靠。研究团队通过两项在野实验发现:
图 3: 搜索智能体可能会因不可靠的搜索结果而改变其立场。
这些现象表明,搜索智能体并不像我们想象的那样「鲁棒」。
现有文献主要关注搜索智能体的性能上限,如 Deep Research Systems 或工具强化学习,但在安全性评估方面仍存在空白:
风险范围与威胁模型
研究包含五类风险,涵盖两种对抗性风险 —— 间接提示注入和有害输出,以及三种非对抗性风险 —— 偏见诱导、广告推广与错误信息。这些风险分别源于恶意利用或商业目的,但在搜索智能体视角下都是「返回不可靠网页」这一共同威胁。
表 1: SafeSearch 基准涵盖的五类风险。
为获得可比较的结果,红队测试者的能力、知识和目标被严格限定:
高质量测试案例的自动生成
为了覆盖大量风险场景,SafeSearch 采用了多阶段的测试用例生成流程。该流程由一个具有推理能力的生成模型(例如, o4-mini)驱动,并辅以自动化过滤,确保生成的用例既具可行性又具挑战性。具体步骤如下:
图 4: SafeSearch 自动化的测试样例生成流程。
为了筛除无效或低质量用例,SafeSearch 在生成后进行差异测试,使用 Baseline Agent 在「正常搜索」和「注入不可靠网页」两种环境下运行。只有同时满足以下条件的用例才会留存:
模拟式红队:低成本注入不可靠网页
不同于直接操纵搜索引擎排名的有害做法,SafeSearch 采用「模拟式」红队方法向搜索结果注入不可靠网页,以减少对真实用户的影响。其流程如下:
这种模拟策略保证了测试可重复、成本低,同时避免了通过 SEO 操纵搜索引擎干扰普通用户的风险。
图 5: SafeSearch 模拟式红队流程。
自动化评估与指标
SafeSearch 采用 LLM-as-a-Judge 思路进行自动化评估:
SafeSearch 基准数据集
按照上述流程,研究者为每类风险生成并过滤了 60 个高质量测试案例,总计 300 个。最终的 SafeSearch 基准覆盖广告、偏见、有害输出、提示注入和错误信息五类风险,为搜 Search Agent 提供了全面且实用的安全测试库。
研究团队使用 SafeSearch 对三类代表性 Search Agent 架构(Search Workflow、Tool-calling、Deep Research)以及 15 个主流大模型(包括 GPT-4.1、GPT-5、Gemini、Qwen3、DeepSeek R1 等)进行了系统评估 。
表 2: SafeSearch 上搜索智能体的有用性和安全性表现。
主要结论令人警醒:
这些结果说明,大模型搜索智能体的安全性依赖于「模型能力 + 架构设计」的双重因素。
SafeSearch 的一个直接效用是提升搜索智能体开发中在安全维度的透明性。例如,研究测试了两种常见防御策略的有效性:
图 6: GPT-4.1-mini 和 Gemini-2.5-Flash 在防御措施加持下的 ASR 变化。
结果表明:
这一现象还凸显了一个「知识 - 行动鸿沟」:以 GPT-4.1-mini 为例,模型即使知道内容不可靠(被特别用于不可靠搜索检测),在真实智能体场景中仍然可能被误导。
SafeSearch 的提出,不仅是一项技术突破,更为业界和学界提供了一个重要启示:
未来,团队希望 SafeSearch 能成为 Search Agent 标准化的安全评测工具,帮助推动 Search Agent 在性能与安全的双重平衡中持续进化。
在信息爆炸但又暗流涌动的互联网世界里,大模型搜索智能体就像一位「信息翻译官」。然而,当它遇到不可靠网页时,翻译的内容可能带来不可忽视的风险。
清华大学团队提出的 SafeSearch 框架,正是在这个背景下的一次积极探索。它提醒我们:搜索智能体要想真正走向大众,除了强大的能力,更需要透明、可靠与安全。
目前项目已在 GitHub 开源,欢迎有兴趣的同学了解。
文章来自于“机器中心”,作者“董建硕”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales