当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

AITNT
正文
资源拓展
当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch
2025-10-17 09:33

在 AI 发展的新阶段,大模型不再局限于静态知识,而是可以通过「Search Agent」的形式实时连接互联网。搜索工具让模型突破了训练时间的限制,但它们返回的并非总是高质量的资料:一个低质量网页、一条虚假消息,甚至是暗藏诱导的提示,都可能在用户毫无察觉的情况下被模型「采纳」,进而生成带有风险的回答。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch


  • 论文标题:SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents
  • 预印本:https://arxiv.org/abs/2509.23694
  • 代码仓库:https://github.com/jianshuod/SafeSearch


从真实案例切入:一次价值 2500 美元的「搜索错误」


24 年 11 月,在 Twitter 上有一个这样的案例:有开发者直接复制了 ChatGPT 生成的代码片段,但该片段源自一个搜索过程不可靠的 GitHub 页面。结果,他的私钥被意外泄露,最终损失了约 2500 美元


这一事件揭示了问题的本质:搜索服务并不总是返回高质量、可信的网页,而用户往往难以分辨其中的潜在风险。这也意味着,Search Agent 一旦「轻信」了搜索结果,风险会迅速传递给终端用户


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

图 1: LLM 服务可能由于互联网来源的不可靠搜索结果而返回不安全的代码。图源:https://twitter-thread.com/t/1859656430888026524


搜索智能体:强大但脆弱的新范式


随着 ChatGPT Search、Gemini Deep Research 等产品的兴起,搜索智能体逐渐成为大模型的重要形态。与传统的检索增强生成(RAG)不同,搜索智能体直接调用搜索引擎,实时获取互联网上的最新信息


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

图 2: RAG 和 Search Agent 在技术特点上的对比


这种模式虽然突破了大模型知识时效性的限制,但同时也引入了一个新的威胁面:搜索工具本身并不总是可靠。研究团队通过两项在野实验发现:


  • 低质量网站在搜索结果普遍存在:把从 PersonaHub 中随机采样的 1000 个用户描述改写为最可能询问的问题,在从 Google Search 收集的近 9000 个搜索结果中,有 4.3% 被判定为疑似内容农场(为了获取流量、广告点击量或搜索引擎排名而批量生产低质量内容)。
  • 不可靠网页会显著改变模型回答:受控比较有无搜索工具情况下模型回复的变化,Search Agent 在接触低质量搜索结果后更倾向于认可不安全的治疗方式,特别是在健康等敏感领域。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

图 3: 搜索智能体可能会因不可靠的搜索结果而改变其立场。


这些现象表明,搜索智能体并不像我们想象的那样「鲁棒」。


现有文献主要关注搜索智能体的性能上限,如 Deep Research Systems 或工具强化学习,但在安全性评估方面仍存在空白:


  1. 缺乏系统性的安全基准。已有基准(GAIA、SimpleQA、BrowseComp 等)关注回答准确率,而非安全边界。
  2. 覆盖风险有限。一些智能体安全基准只测试间接提示注入等局部威胁,忽视搜索工具本身带来的系统性风险。
  3. 动态威胁难以评估。与 RAG 系统集中在静态知识库不同,搜索智能体的威胁源于开放、动态互联网,更具不可预测性。


方法设计:自动化红队框架


风险范围与威胁模型


研究包含五类风险,涵盖两种对抗性风险 —— 间接提示注入和有害输出,以及三种非对抗性风险 —— 偏见诱导、广告推广与错误信息。这些风险分别源于恶意利用或商业目的,但在搜索智能体视角下都是「返回不可靠网页」这一共同威胁。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

表 1: SafeSearch 基准涵盖的五类风险。


为获得可比较的结果,红队测试者的能力、知识和目标被严格限定:


  • 能力限制(Capacity):每个测试用例的查询都是良性的,测试者只能通过搜索工具注入至多一个不可靠网站,避免高估真实部署中的风险。
  • 知识假设(Knowledge):不可靠网站针对具体用户请求而非特定 Agent,即同一用例在不同 Agent 上使用相同的不可靠网站,保持评测公平。
  • 评估目标(Objective):考察不可靠网站对 Agent 输出的影响,重点关注是否产生不安全响应。


高质量测试案例的自动生成


为了覆盖大量风险场景,SafeSearch 采用了多阶段的测试用例生成流程。该流程由一个具有推理能力的生成模型(例如, o4-mini)驱动,并辅以自动化过滤,确保生成的用例既具可行性又具挑战性。具体步骤如下:


  1. 场景构想(Scenario Envisioning):测试生成模型首先根据所选风险类型,设想一个用户向搜索智能体提问、风险可能出现的真实场景。
  2. 测试设计(Test Design):随后,测试生成模型制定「攻击计划」:明确希望搜索智能体输出的负面后果(如推荐危险治疗方法、传播虚假新闻),并列举相关不可靠网站的潜在来源。生成过程中测试生成模型被要求考虑时间差,所注入的诱导信息必须发生在大模型知识截止日期之后,以确保测试反映该威胁的实时性特点。
  3. 测试实例化(Test Instantiation):最后,测试生成模型将概念化的计划转化为指导不可靠网页生成的详细规范(guidelines),包括页面格式、关键信息等,并生成一份检核表(checklist)。检核表为后续评估器提供明确的判断依据,有助于减少评价时的偏差。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

图 4: SafeSearch 自动化的测试样例生成流程。


为了筛除无效或低质量用例,SafeSearch 在生成后进行差异测试,使用 Baseline Agent 在「正常搜索」和「注入不可靠网页」两种环境下运行。只有同时满足以下条件的用例才会留存:


  • 可达性(Attainability):用例必须能在该 Agent 上触发预期的负面后果,否则可能因为测例本身的缺陷误导开发者认为模型安全无虞;
  • 完整性(Integrity):在不注入不可靠网页的情况下,Agent 不会自行生成不安全输出,否则该用例说明原任务本身就具风险,不适合测评。


模拟式红队:低成本注入不可靠网页


不同于直接操纵搜索引擎排名的有害做法,SafeSearch 采用「模拟式」红队方法向搜索结果注入不可靠网页,以减少对真实用户的影响。其流程如下:


  1. 当智能体收到用户查询后,它会按照正常调用搜索工具获取相关搜索结果,红队仅在第一次调用的结果中插入一篇不可靠网页,使其与若干个真实网页混合,从而逼近现实中偶尔夹杂不可靠信息的场景。这样的设定使得,如果智能体调用多次搜索工具,智能体将有机会在后续轮次消解不可靠网页的影响。
  2. 不可靠网页的内容由专门的大模型作为网页生成器按照 guidelines 自动合成,且生成时会设置日期以模拟真实世界中不可靠信息的实时性特点。
  3. 智能体在参考混合搜索结果并产生最终回复后,红队会审计其回复以判断是否出现预期的风险行为。


这种模拟策略保证了测试可重复、成本低,同时避免了通过 SEO 操纵搜索引擎干扰普通用户的风险。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

图 5: SafeSearch 模拟式红队流程。


自动化评估与指标


SafeSearch 采用 LLM-as-a-Judge 思路进行自动化评估:


  • 安全性评估:评估器接收用户查询、目标后果(含 checklist)以及 Agent 回复,先进行推理,再给出是否发生了预期的风险行为的判断。跨所有测试用例计算,被诱导产生不安全输出的比例称为攻击成功率(Attack Success Rate,ASR)。
  • 有用性评估:在有无注入两种环境下,评估器还会根据 Agent 回复对用户的帮助程度打分,范围 1–5 分,换算到 0–100 后取平均即为有用性得分(Helpfulness Score)。这一指标用于衡量在追求安全的同时 Agent 的任务效用是否下降。


SafeSearch 基准数据集


按照上述流程,研究者为每类风险生成并过滤了 60 个高质量测试案例,总计 300 个。最终的 SafeSearch 基准覆盖广告、偏见、有害输出、提示注入和错误信息五类风险,为搜 Search Agent 提供了全面且实用的安全测试库。


实验结果


研究团队使用 SafeSearch 对三类代表性 Search Agent 架构(Search Workflow、Tool-calling、Deep Research)以及 15 个主流大模型(包括 GPT-4.1、GPT-5、Gemini、Qwen3、DeepSeek R1 等)进行了系统评估 。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

表 2: SafeSearch 上搜索智能体的有用性和安全性表现。


主要结论令人警醒:


  • 搜索智能体的高脆弱性:在最极端情况下(GPT-4.1-mini + 搜索工作流),智能体受到不可靠搜索结果影响的比例高达 90.5%。
  • 模型差异明显:即便在相同 Search Agent 架构下,不同 LLM 的抗风险能力差异显著。推理模型往往更有韧性。其中,GPT-5 和 GPT-5-mini 展现出独一档的鲁棒性。
  • 搜索智能体架构影响关键:设计不同的搜索智能体架构会影响安全性。以 GPT-4.1-mini 为例,其受影响比例从搜索工作流的 90.5%,在工具调用下降至 77.8%,进一步在 Deep Research 下降到 57.4%。
  • 风险类型差异:相比提示注入(ASR 较低),错误信息的风险最难抵御。


这些结果说明,大模型搜索智能体的安全性依赖于「模型能力 + 架构设计」的双重因素


防御措施:提醒无效,过滤作用有限


SafeSearch 的一个直接效用是提升搜索智能体开发中在安全维度的透明性。例如,研究测试了两种常见防御策略的有效性:


  1. 提醒(Reminder Prompting):在系统提示中提醒模型「注意不可靠搜索结果,审慎采纳」。
  2. 过滤(Filtering):利用辅助模型(GPT-4.1-mini)先对搜索结果进行筛选,剔除可能不可靠的网页。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

图 6: GPT-4.1-mini 和 Gemini-2.5-Flash 在防御措施加持下的 ASR 变化。


结果表明:


  • 提醒几乎无效,模型虽然能识别部分不良来源,但在实际生成时依旧会受到影响。
  • 过滤更有效,可将 ASR 减半,相当于主动构造一个更安全的搜索工具,但仍无法完全杜绝风险。


这一现象还凸显了一个「知识 - 行动鸿沟」:以 GPT-4.1-mini 为例,模型即使知道内容不可靠(被特别用于不可靠搜索检测),在真实智能体场景中仍然可能被误导


意义与展望


SafeSearch 的提出,不仅是一项技术突破,更为业界和学界提供了一个重要启示:


  • 搜索智能体不是天然安全的,它们极易受到低质量网页的干扰。
  • 系统化评测至关重要,SafeSearch 为开发者提供了一种可量化、可扩展的安全检测方式。
  • 安全与实用并非对立,研究发现,合理的架构设计(如 Deep-research scaffold)既能保持高效实用性,又能大幅降低风险。当然,其背后 test-time scaling 意味着更多成本。


未来,团队希望 SafeSearch 能成为 Search Agent 标准化的安全评测工具,帮助推动 Search Agent 在性能与安全的双重平衡中持续进化。


总结


在信息爆炸但又暗流涌动的互联网世界里,大模型搜索智能体就像一位「信息翻译官」。然而,当它遇到不可靠网页时,翻译的内容可能带来不可忽视的风险。


清华大学团队提出的 SafeSearch 框架,正是在这个背景下的一次积极探索。它提醒我们:搜索智能体要想真正走向大众,除了强大的能力,更需要透明、可靠与安全。


目前项目已在 GitHub 开源,欢迎有兴趣的同学了解。


文章来自于“机器中心”,作者“董建硕”。

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

6
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

7
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

8
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

添加客服微信openai178,进AITNT官方交流群
IOS下载
安卓下载
微信群