OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

正文

资源拓展

2025-01-24 15:00

OpenAI的新Scaling Law，含金量又提高了。

像o1这样的推理模型，随着思考时间的延长，面对对抗性攻击会变得更加稳健。

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

随着大语言模型被越来越多地赋予Agent能力，执行现实世界的任务，模型被对抗攻击的风险也与日俱增。

特别是OpenAI官方Agent“Operator”发布在即，现在放出这样一个研究，是否是想让外界更放心一些呢？

而目前主流的“对抗性训练”防御方法，有几个缺点：

依赖先验知识，需要了解对手的攻击方式。要交“安全税”，在稳健性和模型能力之间取舍。

现在OpenAI实验证明，在不做对抗性训练的情况下，只要增加推理时计算，模型的对抗稳健性就能显著提升，在多个任务上都得到了验证。

这项新研究，共同一作中包括仅剩的联创之一Wojciech Zaremba。

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

另一位共同一作Boaz Barak表示“ 我们没有‘解决’对抗稳健性问题……但我对未来方向感到兴奋”。

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

针对推理模型的新攻防战

针对推理模型特性，团队在实验中考察了几种的“攻击面”（attack surfaces）：

Many-shot攻击：攻击者在提示中提供大量上下文示例，攻击资源量由提供的tokens数量衡量。Soft token攻击：攻击者可以直接操纵embedding向量，通过梯度下降优化token来达到对抗目的。这是个强有力但不太现实的白盒攻击。Think less攻击（想太少）：这种新型攻击旨在降低模型的推理时计算量，从而增加其犯错概率。Nerd-sniping（狙击书呆子）：当模型陷入不必要的“深思熟虑”，在无谓的地方耗费算力时，反而更容易受到攻击。人类/AI红队攻击：请专家或AI组成红队通过人机交互，针对性探索潜在的prompt注入漏洞。多模态输入对抗攻击：针对图像分类任务，使用特定的对抗图像数据集进行攻击。

在大多数实验里，随着推理时计算的增加，模型抵御攻击的成功率都在提高。

举几个例子：

下面几张图中，Y轴是攻击者的资源量，X轴是推理时间计算量。随着攻击者资源的增加，其成功概率也会增加。

但对于每固定数量的攻击者资源，成功的概率会随着模型在推理时花费更多的计算而下降。

在数学问题的many-shot攻击下，攻击方目标包括要求模型无论如何输出42，输出正确答案+1、或正确答案x7。

但随着推理算力增加，攻击成功率最终趋于0。

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

在智能体网页浏览任务中，通过在网站注入恶意指令来攻击，增加推理时计算后，攻击成功率也降为0。

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

即使更强大的攻击下，增加更多的推理时间还是能显著提升防御力。

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

论文对几种新颖的攻击方式做了额外分析。

Think less攻击，主要是o1-mini比较容易中招，o1-preview防御能力还可以。

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

Nerd-sniping攻击，模型在某些实例上花费异常大的推理时间计算时，攻击成功率可能更高，表明模型可能会陷入无效率的思考循环。

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

尽管如此，研究者也指出，目前的方法在以下几个方面有局限：

研究仅涉及有限的任务和计算缩放范围，在面对利用策略模糊性或漏洞的攻击时，增加计算量可能无效“think less”和“nerd sniping”攻击也揭示了推理时计算的两面性，攻击者可以诱导模型想太多或想太少。

One More Thing

对于这项针对推理大模型特性的研究，有创业者从不一样的角度思考：

那么DeepSeek-R1系列也可以从中受益呗？

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

论文地址：

https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf

参考链接：

[1]https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/

[2]https://x.com/boazbaraktcs/status/1882164218004451334

文章来自于微信公众号“量子位”，作者“梦晨”

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

IOS下载

安卓下载

微信群